原始数据质量分布图

Draw quality score boxplot(原始数据质量分布图)


  运用统计学的方法,对所有测序循环下所有reads的质量值进行统计,从宏观上直观地反应测序实验数据质量。

  分析模块通过生成,测序质量值箱线图,直观地反应文库的测序质量。

  测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。

  通常序列5’端前几个碱基的错误率相对较高,随着测序的进行,酶的活性及其他物质的灵敏度也会下降,所以达到一定测序长度后,测序质量值也随之下降。


  输入:

       1、测序结果统计报告表,由分析模块 "FASTQ Summary Statistics" 生成。

示例:

1   6362991 -4 40 250734117 39.41 40 40 40   0 40 40 1396976 1329101   678730 2958184   0

2   6362991 -5 40 250531036 39.37 40 40 40   0 40 40 1786786 1055766 1738025 1782414   0

3   6362991 -5 40 248722469 39.09 40 40 40   0 40 40 2296384   984875 1443989 1637743   0

4   6362991 -4 40 248214827 39.01 40 40 40   0 40 40 2536861 1167423 1248968 1409739   0

36   6362991 -5 40 117158566 18.41   7 15 30 23 -5 40 4074444 1402980   63287   822035 245


  输出:

  测序数据质量值箱线图。

说明:

1Black horizontal lines are medians.

2Rectangular red boxes show the Inter-quartile Range (IQR) (top value is Q3, bottom value is Q1).

3Whiskers show outlier at max. 1.5*IQR.

示例:

An excellent quality library (median quality is 40 for almost all 36 cycles):

20.gif


A relatively good quality library (median quality degrades towards later cycles):

21.gif


A low quality library (median drops quickly):

22.gif

分析模块引用了FASTX-Toolkit v0.0.13中的fastq_quality_boxplot_graph.sh脚本 (http://hannonlab.cshl.edu/fastx_toolkit/ )



分享