Draw quality score boxplot(原始数据质量分布图)
运用统计学的方法,对所有测序循环下所有reads的质量值进行统计,从宏观上直观地反应测序实验数据质量。
分析模块通过生成,测序质量值箱线图,直观地反应文库的测序质量。测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。通常序列5’端前几个碱基的错误率相对较高,随着测序的进行,酶的活性及其他物质的灵敏度也会下降,所以达到一定测序长度后,测序质量值也随之下降。
输入:
测序结果统计报告表,由分析模块 "FASTQ Summary Statistics" 生成。
示例:
column count min max sum mean Q1 med Q3 IQR lW rW A_Count C_Count G_Count T_Count N_Count Max_count
1 31892 15 35 1095136 34.3388937665 35.0 35.0 35.0 0.0 35 35 0 31891 1 0 0 31892
2 31892 15 35 1097903 34.4256553368 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892
3 31892 15 35 1101478 34.5377524144 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892
4 31892 15 35 1092792 34.2653957105 35.0 35.0 35.0 0.0 35 35 1 0 31891 0 0 31892
5 31892 15 35 1111570 34.8541954095 35.0 35.0 35.0 0.0 35 35 1 0 0 31891 0 31892
6 31892 16 40 1234032 38.6940925624 39.0 39.0 40.0 1.0 38 40 31891 0 0 1 0 31892
…..
输出:
测序数据质量值箱线图。
说明:
1、黑色的水平线表示中位数。
2、红色长方形箱子为IQR,第三四分位数与第一四分位数距离。
3、边缘线表示超出1.5*IQR的异常值。
示例:
下图展示了,一个测序质量非常好的结果,在36次循环中,测序质量值中位数基本都是36。
下图展示了,一个测序质量相对较好的结果,测序质量值中位数在末尾的时候下降。
下图展示了,一个测序质量很差的结果,测序质量值中位数快速下降。
分析模块引用了FASTX-Toolkit v0.0.13中的fastq_quality_boxplot_graph.sh脚本进行质量值箱线图的绘制(http://hannonlab.cshl.edu/fastx_toolkit/)。