RNA-seq报告解读:原始数据以及数据产出统计

1、原始测序数据

高通量测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列,称之为 RawData 或 RawReads,结果以 FASTQ (简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。FASTQ 格式文件中每个 reads 有四行描述,如果测序错误率用 E 表示,Illumina 的碱基质量值用 Qphred 表示,通过公式 Qphred=-10*log10(e) 转化得到,e 表示碱基测序错误率。从测序仪下机的高通量测序数据存在部分测序错误的碱基,这是由测序仪本身、测序试剂、样本等多个因素共同作用导致的。通常测序片段前端几个碱基和末端的错误率会偏高,这是由于测序起始仪器不稳定及测序中化学试剂的消耗导致的。一般情况下,每个碱基位置的测序错误率都应该低于 1%,也就是 Phred 分值大于 Q20。

Illumina测序错误率与测序质量值简明对应关系表

2、数据产出统计

通过Illumina平台,得到了大量的样本双端测序数据。鉴于数据错误率对结果的影响,我们采用Trimmomatic软件对原始数据进行质量预处理,并对整个质控过程中的reads数进行统计汇总。   

质量预处理步骤:   

(1)去接头(Adaptor);   

(2)去除低质量 Reads;   

(3)从3’端及5‘端以不同方式去除低质量碱基;   

(4)统计原始测序量,有效测序量, Q30, GC 含量,并进行综合评价。

测序数据质量预处理结果一览表如下:

 表格说明:
(1)Sample:样本名称 ;
(2)raw_reads:原始reads数目;
(3)raw_bases:原始测序量,即碱基数目;
对于绝大部分物种来说,转录组测序6G数据量,全转录组测序12G数据量即可。
(4)clean_reads:过滤后得到的clean reads数目;
(5)clean_bases:过滤后得到的测序量,碱基数目;
(6)valid_base:有效碱基百分比;
(7)Q30:raw_bases中Qphred数值大于30的碱基占总体碱基的百分比;
Q30(即碱基错误识别率为0.1%)的值越大越好,一般不能低于80%。
(8)GC:clean bases中G和C的数量总和占总的碱基数量的百分比。

分享