FASTQ Summary Statistics（fastq数据统计）

FASTQ Summary Statistics（fastq数据统计）

分析模块输入，原始测序数据文件，FASTQ格式，生成测序结果统计报告。测序结果统计报告，可用于生成碱基分布图，和测序质量箱线图。

为方便测序数据的分析、发布和共享，Illumina测序得到的原始图像数据经过Base Calling转化为序列数据，即FASTQ格式的测序数据文件。FASTQ格式文件可记录所测读段（read）的碱基及其质量分数。

输入：

1、FASTQ格式的原始测序数据文件。

示例：

设置原始数据质量值编码方式：1、Solexa 2、Illumina 1.3-1.7 3、Sanger/Illumina 1.8+

注：Illumina测序平台，从左到右分别对应，极早期机器、早期机器，当前或以后机器。参数的默认值为 Sanger/Illumina 1.8+，对应目前国内测序公司主流测序仪。

关于FASTQ格式文件，参考维基百科：https://en.wikipedia.org/wiki/FASTQ_format

输出：

每个测序循环下所有reads碱基数和质量值统计表。

示例：

column count min max sum mean Q1 med Q3 IQR lW rW A_Count C_Count G_Count T_Count N_Count Max_count

1 31892 15 35 1095136 34.3388937665 35.0 35.0 35.0 0.0 35 35 0 31891 1 0 0 31892

2 31892 15 35 1097903 34.4256553368 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892

3 31892 15 35 1101478 34.5377524144 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892

4 31892 15 35 1092792 34.2653957105 35.0 35.0 35.0 0.0 35 35 1 0 31891 0 0 31892

5 31892 15 35 1111570 34.8541954095 35.0 35.0 35.0 0.0 35 35 1 0 0 31891 0 31892

……

其中，从左到右，每一列含义，如下所示：

l column = column number (1 to 36 for a 36-cycles read file). 循环数目。

l count = number of bases found in this column. 该循环下碱基总数。

l min = Lowest quality score value found in this column. 该循环下最低质量分数。

l max = Highest quality score value found in this column. 该循环下最高质量分数。

l sum = Sum of quality score values for this column. 该循环下质量分数求和。

l mean = Mean quality score value for this column. 该循环下质量分数平均值。

l Q1 = 1st quartile quality score. 该循环下质量分数第一四分位数。

l med = Median quality score. 该循环下质量分数中位数。

l Q3 = 3rd quartile quality score. 该循环下质量分数第三四分位数。

l IQR = Inter-Quartile range (Q3-Q1). 质量分数，第三四分位数与第一四分位数距离。

l lW = 'Left-Whisker' value (for boxplotting). boxplotting中上边缘值。

l rW = 'Right-Whisker' value (for boxplotting). boxplotting中下边缘值。

l A_Count = Count of 'A' nucleotides found in this column. 该循环下A碱基总数

l C_Count = Count of 'C' nucleotides found in this column. 该循环下C碱基总数

l G_Count = Count of 'G' nucleotides found in this column. 该循环下G碱基总数

l T_Count = Count of 'T' nucleotides found in this column. 该循环下T碱基总数

l N_Count = Count of 'N' nucleotides found in this column. 该循环下未知碱基总数