Draw nucleotides distribution chart（原始数据碱基分布图）

Draw nucleotides distribution chart（原始数据碱基分布图）

运用统计学方法，统计每个测序循环下所有reads的碱基分布情况。分析模块通过生成碱基分布叠层直方图，直观地反应测序reads的碱基分布情况。

常规方式测序（如转录组，基因组）的前几个循环，A、C、G、T的丰度有所波动，后面趋于稳定。一般情况下A与T相等，C与G相等，各碱基所含百分比会因物种的差异而不同，未知碱基所占百分比越低，说明测序文库质量越好。

输入：

测序结果统计报告表，由分析模块 "FASTQ Summary Statistics" 生成。

示例：

column count min max sum mean Q1 med Q3 IQR lW rW A_Count C_Count G_Count T_Count N_Count Max_count

1 31892 15 35 1095136 34.3388937665 35.0 35.0 35.0 0.0 35 35 0 31891 1 0 0 31892

2 31892 15 35 1097903 34.4256553368 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892

3 31892 15 35 1101478 34.5377524144 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892

4 31892 15 35 1092792 34.2653957105 35.0 35.0 35.0 0.0 35 35 1 0 31891 0 0 31892

5 31892 15 35 1111570 34.8541954095 35.0 35.0 35.0 0.0 35 35 1 0 0 31891 0 31892

6 31892 16 40 1234032 38.6940925624 39.0 39.0 40.0 1.0 38 40 31891 0 0 1 0 31892

…..

输出：

测序数据碱基分布叠层直方图。

示例：

下图展示了，在测序reads 5' 端，加上GATCT barcode的情况。

下图展示了，在测序reads结果中，大部分的reads具有 TGATA TCGTA TTGAT GACTG AA...的序列值（在叠层直方图中比例高）。

说明测序结果具有序列偏向性，常见于扩增子测序，或大比例的测序reads有接头污染。

下图展示了，随着测序循环数的增加，未知碱基的含量随之增加，说明测序存在质量问题。

下图展示了，大部分情况下，叠层直方图看起来是随机的。

分析模块引用了FASTX-Toolkit v0.0.13中的fastx_nucleotide_distribution_graph.sh 脚本进行叠层直方图的绘制（http://hannonlab.cshl.edu/fastx_toolkit/）。