RNA-seq报告解读:质量控制

1、测序序列质量评估

(1)碱基质量分布Per Base Quality

Illumina测序中碱基错误率是通过Phred分值进行判定,而该Phred分值是通过模型计算,来预测碱基判别发生错误概率,它们的对应关系如下表所示:

Illumina碱基识别与Phred分值

统计各个样本中测序数据碱基质量分布图如下:

测序数据碱基质量分布图.png

测序数据碱基质量分布图

图片说明:横坐标是reads碱基坐标,表示reads上从5’到3’端依次碱基的排列;纵坐标是所有reads在该位点处碱基的平均错误率(%)。左半部分为双端测序序列的R1端测序Reads的错误率分布情况,右半部分为R2端测序reads的错误率分布情况。

(2)碱基含量分布Per Base Sequence Content

在非链特异性建库中,碱基分布检查用于检测有无AT、GC分离现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析。理论上G和C碱基及A和T碱基含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线。

而在链特异性建库中,文库构建时保留了RNA链的方向,可以有效鉴别反义转录本,可以确定RNA转录本来源于基因组DNA上的正义链还是反义链。但链特异性建库的结果中,G和C含量以及A和T含量并非在测序每个循环上分别相等。一般情况下,在有参转录组测序中,我们均采用链特异性建库方式进行文库构建。

各个样本中测序数据碱基分布图如下:

测序数据碱基分布图.png

测序数据碱基分布图

图片说 明:横坐标是reads碱基坐标,坐标表示reads上从5’到3’端依次碱基的排列;纵坐标是所有reads在该测序位置A、C、G、T、N碱基分别占的百分比,不同碱基用不同颜色表示。序列的起始位置与测序的引物接头相连,因此A、C、G、T在起始端会有所波动,后面会趋于稳定。

2、有参转录组测序项目评估

针对整个有参转录组测序项目,利用RseqQC分别从测序饱和度、测序建库的随机性、Reads在基因组不同元件上的富集这三个方面进行一个总体评估。

(1)测序饱和度分析

样本测序饱和度分析

图片说明:Q1,Q2,Q3,Q4分别代表基因表达量从低到高的四组基因测序饱和分析结果。每个子图的横坐标代表重抽样的数据规模分布(从5%到95%)。每个子图的纵坐标代表在重抽样数据基础上基因表达量的偏差。

从上图可以看出:1、同等规模的数据量对高表达基因比对低表达基因更容易达到饱和;2、对所有四类基因来讲,当前测序数据量达到饱和。

(2)测序随机性评估

在建库实验过程中,首先需要通过物理或化学方法将转录本打断成短片段,然后上机测序。如果打断随机性差,reads 偏向于来自基因特定区域,会对后续分析有一定程度影响。我们利用 reads 在基因上的分布来评价打断随机性。由于不同参考基因有不同长度,把 reads 在基因上的位置标准化到相对位置(reads 在基因上的位置与基因长度的比值),然后统计基因的不同位置比对上的reads 数。如果打断随机性好,reads 在基因各部位应分布相对均匀。

各个样本中测序随机性分析结果如下:

测序数据碱基分布图

图片说明:横轴代表基因的5‘->3’端,纵轴表示覆盖的reads数目。

(3)Reads在不同元件的富集分析

在进行基因组比对时,跨内含子的reads会被分成多个tags。通过观测tag数目在不同基因元件的富集,判断所测样本是否大多数tag落入到CDS区域。

各个样本中 Reads在不同元件中的分布图如下:

样本reads在不同原件上分布示意图.png

样本reads在不同原件上分布示意图

图片说明:横轴代表不同的基因元件,纵轴代表落入到对应基因元件的Tag数目。

从图上可以看出绝大多数reads比对到了CDS_Exon,符合有参转录组测序的预期。

“Read_distribution.xls”文件表头解释

分享