Draw nucleotides distribution chart(原始数据碱基分布图)
运用统计学方法,统计每个测序循环下所有reads的碱基分布情况。分析模块通过生成碱基分布叠层直方图,直观地反应测序reads的碱基分布情况。
常规方式测序(如转录组,基因组)的前几个循环,A、C、G、T的丰度有所波动,后面趋于稳定。一般情况下A与T相等,C与G相等,各碱基所含百分比会因物种的差异而不同,未知碱基所占百分比越低,说明测序文库质量越好。
输入:
测序结果统计报告表,由分析模块 "FASTQ Summary Statistics" 生成。
示例:
column count min max sum mean Q1 med Q3 IQR lW rW A_Count C_Count G_Count T_Count N_Count Max_count
1 31892 15 35 1095136 34.3388937665 35.0 35.0 35.0 0.0 35 35 0 31891 1 0 0 31892
2 31892 15 35 1097903 34.4256553368 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892
3 31892 15 35 1101478 34.5377524144 35.0 35.0 35.0 0.0 35 35 0 1 0 31891 0 31892
4 31892 15 35 1092792 34.2653957105 35.0 35.0 35.0 0.0 35 35 1 0 31891 0 0 31892
5 31892 15 35 1111570 34.8541954095 35.0 35.0 35.0 0.0 35 35 1 0 0 31891 0 31892
6 31892 16 40 1234032 38.6940925624 39.0 39.0 40.0 1.0 38 40 31891 0 0 1 0 31892
…..
输出:
测序数据碱基分布叠层直方图。
示例:
下图展示了,在测序reads 5' 端,加上GATCT barcode的情况。
下图展示了,在测序reads结果中,大部分的reads具有 TGATA TCGTA TTGAT GACTG AA...的序列值(在叠层直方图中比例高)。
说明测序结果具有序列偏向性,常见于扩增子测序,或大比例的测序reads有接头污染。
下图展示了,随着测序循环数的增加,未知碱基的含量随之增加,说明测序存在质量问题。
下图展示了,大部分情况下,叠层直方图看起来是随机的。
分析模块引用了FASTX-Toolkit v0.0.13中的fastx_nucleotide_distribution_graph.sh 脚本进行叠层直方图的绘制(http://hannonlab.cshl.edu/fastx_toolkit/)。