FASTQ Summary Statistics(fastq数据统计)
分析模块输入,原始测序数据文件,FASTQ格式,生成测序结果统计报告。测序结果统计报告,可用于生成碱基分布图,和测序质量箱线图。
为方便测序数据的分析、发布和共享,Illumina测序得到的原始图像数据经过Base Calling转化为序列数据,即FASTQ格式的测序数据文件。FASTQ格式文件可记录所测读段(read)的碱基及其质量分数。
输入:
1、FASTQ格式的原始测序数据文件。
示例:
设置原始数据质量值编码方式:1、Solexa 2、Illumina 1.3-1.7 3、Sanger/Illumina 1.8+
注:Illumina测序平台,从左到右分别对应,极早期机器、早期机器,当前或以后机器。参数的默认值为 Sanger/Illumina 1.8+,对应目前国内测序公司主流测序仪。
关于FASTQ格式文件,参考维基百科:https://en.wikipedia.org/wiki/FASTQ_format
输出:
每个测序循环下所有reads碱基数和质量值统计表。
示例:
column count min max sum mean Q1 med Q3 IQR lW rW A_Count C_Count G_Count T_Count N_Count Max_count
1 31892 15 35 1095136 34.3388937665 35.0 35.0 35.0 0.0 35 35 0 31891 1 0 0 31892
2 31892 15 35 1097903 34.4256553368 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892
3 31892 15 35 1101478 34.5377524144 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892
4 31892 15 35 1092792 34.2653957105 35.0 35.0 35.0 0.0 35 35 1 0 31891 0 0 31892
5 31892 15 35 1111570 34.8541954095 35.0 35.0 35.0 0.0 35 35 1 0 0 31891 0 31892
……
其中,从左到右,每一列含义,如下所示:
l column = column number (1 to 36 for a 36-cycles read file). 循环数目。
l count = number of bases found in this column. 该循环下碱基总数。
l min = Lowest quality score value found in this column. 该循环下最低质量分数。
l max = Highest quality score value found in this column. 该循环下最高质量分数。
l sum = Sum of quality score values for this column. 该循环下质量分数求和。
l mean = Mean quality score value for this column. 该循环下质量分数平均值。
l Q1 = 1st quartile quality score. 该循环下质量分数第一四分位数。
l med = Median quality score. 该循环下质量分数中位数。
l Q3 = 3rd quartile quality score. 该循环下质量分数第三四分位数。
l IQR = Inter-Quartile range (Q3-Q1). 质量分数,第三四分位数与第一四分位数距离。
l lW = 'Left-Whisker' value (for boxplotting). boxplotting中上边缘值。
l rW = 'Right-Whisker' value (for boxplotting). boxplotting中下边缘值。
l A_Count = Count of 'A' nucleotides found in this column. 该循环下A碱基总数
l C_Count = Count of 'C' nucleotides found in this column. 该循环下C碱基总数
l G_Count = Count of 'G' nucleotides found in this column. 该循环下G碱基总数
l T_Count = Count of 'T' nucleotides found in this column. 该循环下T碱基总数
l N_Count = Count of 'N' nucleotides found in this column. 该循环下未知碱基总数