转录组测序

转录组测序

转录组广义上指某个物种或特定细胞在某一生理条件下产生的所有的RNA,包括mRNA、核糖体RNA、转运RNA及非编码RNA等,狭义上指所有mRNA的集合。转录组是研究细胞表型和功能的重要手段。与基因组不同的是,转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的。转录组测序是指利用第二代高通量测序技术进行cDNA测序,全面快速地获取某一物种特定器官或组织在某一状态下的几乎所有转录本。相对于传统的基因芯片技术而言,转录组测序无需预先设计探针,即可对任意物种的任意细胞类型的转录组进行检测;能够提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具,目前已广泛应用于各物种的基础研究、临床诊断和药物研发等领域。


建库测序流程

  进行转录组测序,提取样品总RNA并使用DNase消化DNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则通过试剂盒去除rRNA来富集mRNA);加入打断试剂将 mRNA打断成短片段,以打断后的mRNA为模板,用六碱基随机引物合成一链cDNA,然后配制二链成反应体系合成二链cDNA,并使用试剂盒纯化双链cDNA;纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后进行片段大小选择,最后进行PCR扩增;构建好的文库用Agilent 2100 Bioanalyzer质检合格后,使用Illumina HiSeqTM 2500或 Illumina HiSeq X Ten等测序仪进行测序,产生125bp或150bp的的双端数据。质检合格后,使用Illumina测序仪进行测序。

建库测序流程图如下:

转录组建库测序流程.png


生物信息分析流程

转录组测序数据分析流程.png

样品要求

真核

RNA样品总量: 1.5μg
RNA样品浓度: 50ng/μL

样品纯度:OD260/280=1.80-2.00RIN7.0   28S/18S≥1.0


原核

RNA样品总量: 1.5μg
RNA样品浓度: 65ng/μL

样品纯度:OD260/280=1.80-2.00RIN7.0   23S/16S≥1.0


常见问题

1. 转录组测序是否可以同时检测mRNA、miRNA及其他非编码RNA?
理论上技术是可行的,但是通常会根据测序对象长度的不同,在测序建库的时候会选择不同的片段大小,测序读长也会有不同。一般来讲,如果要进行 microRNA测序的话,通常将microRNA分离出来,单独进行测序。mRNA测序,通常建库时选择200-300 bp大小片段,采用125PE/150PE测序。而长链非编码RNA(lncRNA)存在正向转录和反向转录,所以常采去除rRNA后进行链特异性建库测序原则。
2. 转录组测序需要多少测序量?
由于转录组测序需要进行表达量的分析,因此不推荐使用覆盖度,在确定测序量时,我们以产生的reads数作为依据。转录
组测序所需的测序量随物种转录组大小的不同而有所差异。而转录组的大小受基因数目和丰度双重影响,不同物种间变化很大。因此在测序之前,需要对转录组的大小进行评估。针对有参考基因组的物种,可通过分析基因组信息,统计编码基因个数及其碱基数来评估转录组的大小,同时也可参考相近或相关物种转录组研究的文章;针对无参考基因组的物种,只能参考相近物种的转录组大小。

3. Q20、Q30所代表的碱基质量含义?
为了保证数据质量,要在信息分析前对原始数据进行质量评估。每个碱基测序错误率是通过测序碱基质量值(Phred score,Qphred)通过公式转化获得,而测序质量值是在碱基识别过程通过一种预测碱基判别发生错误概率模型计算获得的,对应关系如下表所显示:

微信截图_20181022155231

Q20:原始数据中Phred数值大于20的碱基数量占总碱基数量的百分比。

Q30:原始数据中Phred数值大于30的碱基数量占总碱基数量的百分比。

4. 原核生物与真核生物在进行转录组测序文库构建时有什么区别?

在原核生物中,mRNA 只占全部 RNA 的 1-5%,其余绝大部分是核糖体 RNA(rRNA),因此若要测序 mRNA,首先需要先将 mRNA 纯化出来。然而,原核生物并不像真核生物 mRNA 具有 polyA 的结构,因此,无法直接利用 oligo(dT) 将
mRNA 纯化出来。如果拿 total RNA 进行测序,那么测序的效率会比较差,因为大部分的序列都来自 rRNA。目前,提高原核生物中 mRNA 的量,较为主要的方式是去除 total RNA 中 rRNA。
5. 关于转录组 De novo 分析,采用什么软件进行拼接,使用的参数是什么?
De novo 拼接是指在不依赖参考基因组的情况下,将有 overlap 的 reads 连接成一个更长的序列,经过不断的延伸,拼接成   transcript。我们使用 Trinity (version:trinityrnaseq_r20131110_ 软件 paired-end 的拼接方法,对样本的有效 reads 合并进行 de novo 拼接,取每个 Loci (comp*_c*_) 下较长的转录本作为 Unigene,以此作为后续分析的参考序列。参数为
:Trinity.pl --seqTypefq --min_contig_length 200 --JM 400G --left $R1 --right $R2 --SS_lib_type RF --output
trinity_out_dir --CPU 80。
6. Raw data 如何读取?为什么不提供原始图像数据和中间过程文件?
测序数据文件以 txt 文本格式为主。对于 Windows 用户,推荐使用 Editplus 或 UltraEdit 作为浏览程序,否则会因文件过大造成死机。Unix 或 Linux 系统比较适于浏览较大的文本文件。由于 Illumina 更新了 pipeline,测序过程中生成的图像文件将实时转化为中间过程文件,这一步完成后图像文件将被自动删除,获取中间过程文件(此文件为二进制文件,只有在 Illumina 机器上才能读取,通常不保留),在 Illumina 分析软件下将其转化为序列文件,即所说的 raw data 。目前各公共数据库接受 fastq 文件,所以我们提供的 raw data 都是 fastq 文件。
分享