原始数据碱基分布图

Draw nucleotides distribution chart(原始数据碱基分布图)


  运用统计学方法,统计每个测序循环下所有reads的碱基分布情况。

  分析模块通过生成,碱基分布叠层直方图,直观地反应测序reads的碱基分布情况。

  常规方式测序(如转录组,基因组)的前几个循环,A、C、G、T的丰度有所波动,后面趋于稳定。一般情况下A与T相等,C与G相等,各碱基所含百分比会因物种的差异而不同,未知碱基所占百分比越低,说明测序文库质量越好。

  对于扩增子测序,由于不是随机打断建库测序,不符合以上的碱基分布规律,主要看未知碱基的含量。

  对于多重PCR和DNA捕获芯片测序,如果目标区域不大,随机性不足,也有可能出现碱基分布比较杂乱的情况。


  输入:

       1、测序结果统计报告表,由分析模块 "FASTQ Summary Statistics" 生成。

示例:

1   6362991 -4 40 250734117 39.41 40 40 40   0 40 40 1396976 1329101   678730 2958184   0

2   6362991 -5 40 250531036 39.37 40 40 40   0 40 40 1786786 1055766 1738025 1782414   0

3   6362991 -5 40 248722469 39.09 40 40 40   0 40 40 2296384   984875 1443989 1637743   0

4   6362991 -4 40 248214827 39.01 40 40 40   0 40 40 2536861 1167423 1248968 1409739   0

36   6362991 -5 40 117158566 18.41   7 15 30 23 -5 40 4074444 1402980   63287   822035 245


  输出:

  测序数据碱基分布叠层直方图。

示例:

The following chart clearly shows the barcode used at the 5'-end of the library: GATCT

16.jpg


In the following chart, one can almost 'read' the most abundant sequence by looking at the dominant values: TGATA TCGTA TTGAT GACTG AA...

17.jpg


The following chart shows a growing number of unknown (N) nucleotides towards later cycles (which might indicate a sequencing problem):

18.jpg


But most of the time, the chart will look rather random:

19.jpg

分析模块引用了FASTX-Toolkit v0.0.13中的fastx_nucleotide_distribution_graph.sh 脚本 (http://hannonlab.cshl.edu/fastx_toolkit/ )



分享