长链非编码RNA(long non-coding RNA,lncRNA)是一类RNA分子,其长度超过200个核苷酸,不具有编码蛋白质的能力。在过去的几十年中,随着RNA生物学的深入研究,LncRNA作为一个新兴领域引起了广泛的关注。LncRNA的各种功能及其许多亚型以及与其他基因的相互作用关系使得LncRNA的分类和注释极为困难;LncRNA可以与染色质修饰复合物结合,进而调控与发育表达相关空间控制;LncRNA在细胞质中也发挥着重要作用,同时LncRNA通常具有模块化结构具有丰富的重复序列。LncRNA的表达有着比mRNA更强的组织和细胞类型特异性,且与发育、病理等过程中基因表达的精确时空调控密切相关。
LncRNA的分析内容的主体也是对LncRNA定量以及做差异分析,再对显著的LncRNA做功能方面的分析,今天我们来为大家解读LncRNA的分析报告。
QC
QC主要是统计的测序数据量以及测序质量,会统计下机数据量、clean后的数据量以及碱基质量,一般LncRNA转录组测序数据量在10-12G(人或小鼠)以上即可,即下表Raw bases在10-12G以上,Q20和Q30是碱基正确率,比例越大越好。
QC还进行了可视化展示,A图展示碱基正确率,分布在绿色区域内表示正确率较高;B图展示read长度,我们测序方式为双端150bp测序,所以一般绝大多数read分布在150bp长度;C图统计的GC含量,每种生物的GC含量比较固定,GC含量一般属于正态分布。
MAP
MAP主要是和参考基因组比对的结果,有参转录组是确定物种的测序,数据分析时需要和参考基因组进行比对,MAP率也可以进一步帮助老师确定样本质量和确定样本是否可能存在污染;如果选用的近源物种,也会造成MAP率偏低;参考基因组的注释与详细程度也会影响到MAP率。一般来说MAP率越高,说明质量越高。
可视化结果中,A图一般编码区read占比最多;B图一般是已知剪切位点占比多;C图不存在5’/3偏差则测序实验质量很好;D图随机选择各样本比对数据量的5%,10%,15%,...,95%用于分别计算转录本的表达量并且得到相对于当前测序量的表达量比值, 如果几条线最后变平,说明测序数据量基本已经饱和。
查看C图可以快速确认结果的质量,如下图有较严重的3端偏好性,可能样本质量或者实验过程存在一定问题。
ASSEMBLY
测序下机的Reads不能直接用于数据分析,需要把Reads比对到参考基因组上,组装成转录本,才能进行下一步的分析,此文件夹可以查看各类转录本的数量,以及转录本的序列及注释文件。
以上3个文件夹内容和mRNA转录组内容一致。
LncRNA Predict
针对非编码RNA,LncRNA Predict文件夹内会用四个软件(PLEK、CPAT、CNCI、CPC)进行LncRNA预测,四个软件预测的交集一般是置信度较高的LncRNA。
预测结果如下:
LncRNA PLEK CPAT CNCI CPC表格中统计了4个软件的预测结果和得分,LncRNA PLEK CPAT CNCI CPC predicted表格过滤了编码蛋白的RNA,只统计了非编码RNA:
LncRNA annotation classification表格中统计了预测结果:
CirRNA Predict
同样的,针对cirRNA,分析报告中也做了预测,每个样本文件夹中的两个表格可以查看预测结果(两个表格是一致的,注释信息有不同)。
表格统计信息如下:
merge文件夹中有其它注释结果,以及转录本的序列文件。
DGE
此文件夹内对所有的样本的基因进行了定量以及对组间做了差异分析,LncRNA转录组可以检测到LncRNA、mRNA和cirRNA,所以有如下几项定量结果。
首先,可以查看gene unit的结果,了解整体基因的表达水平。箱形图,pca图和样本相关性热图可以用来确定是否有异常样本,离群的样本可以考虑剔除。
gene unit中的结果和mRNA分析表格中的4-DGE文件夹信息一致(干货|转录组测序报告解读),gene unit中合并了每个基因的LncRNA、mRNA和cirRNA,并在此基础上做了差异分析和功能富集分析。
拆分LncRNA、mRNA和cirRNA的结果具体分析了这几类RNA在组间是否存在差异,这里会比较实验组和对照组的差异,利用deseq2筛选差异基因(筛选标准为差异倍数大于2,p小于0.05)。
表格详细统计信息如下,可以在表格中进一步筛选p值和foldchange,该表格中的表达都是提前取了log2的,差异倍数也是取了log2的,所以真实的差异倍数是2的(log2foldchange)次方,log2foldchange为正即代表上调,为负为下调。
部分老师老师在默认的筛选条件(差异倍数大于2,p小于0.05)下,没有筛选出目标基因,此时可以在总表中,改变筛选条件,重新筛选基因。筛选出的基因集,需要重新做下游的分析,此时可以利用我们的云平台进行下游分析,如果老师需要,可以联系我们索取。
merge文件夹中展示了各类转录本的原始count值、log2fpkm及log2normalized count,具体表格确认文件名即可区分。老师们如果想自行分析或者利用其它软件分析,可以利用原始count值表进行分析。
LncRNA Target
因为LncRNA具有调控的功能,而不具有编码蛋白的功能,所以LncRNA Target中会预测组间有差异的LncRNA的靶基因。结果中有两种预测方法:
顺式调控靶标基因预测:可以根据由于长链非编码RNA在基因组上邻近靶标编码蛋白质基因直接起调控作用, 称为顺式调控(cis-acting regulatory)。根据长链非编码RNA与已知编码蛋白质基因的距离域值设定为LncRNA的上下游100kb内,则认为该基因为顺式调控的靶标基因。
反式调控靶标基因预测:采用基于表达量相关性的共表达分析方法来预测长链非编码RNA调控的反式靶标基因,筛选标准设定为皮尔逊相关系数(Pearson correlation coefficient)满足R2>=0.95来预测差异LncRNA与所有编码蛋白质mRNA的关系对, 此分析针对样本数大于等于6个的数据集。
具体预测结果如下:
顺式调控靶基因预测结果如下:
反式调控靶基因预测结果如下:
预测结果用网络图进行了展示:
AS
针对基因的可变剪切,报告中也分析每个样本的可变性剪切事件。
可变性剪切事件类型包括可变性剪切事件包括SE(Skipped exon外显子跳跃), RI(Retained intron内含子延伸),A5SS(Alternative 5' splice site外显子5端可变剪切), A3SS(Alternative 3'splice site外显子3端可变剪切), MXE(Mutually exclusive exons外显子互斥)。
FUN
因为LncRNA转录组结果中包含lncRNA、mRNA和cirRNA,所以做功能分析的时候会分别用上述各类RNA做功能的分析,而LncRNA和cirRNA不具备编码蛋白的功能,所以LncRNA和cirRNA是用预测的靶基因做的功能富集分析。
针对筛选出的基因,我们会利用GO、KEGG、reactome、disease四个数据库进行功能富集分析。我们会统计所有富集到的通路和显著富集到的通路,一般查看带significant标识的表格,即显著富集到的通路即可,富集分析表格如下:
一般p小于0.05被认为是显著富集到的通路,可以从表格中筛选感兴趣的通路以及富集到的显著差异基因。
显著富集的通路top20有不同的可视化图展示,具体的可以在分析报告中查看。因为二代测序是大通量检测差异的手段,往往top20不是老师感兴趣或者目标的通路,此时可以选择目标的通路,我们可以重新绘制目标通路的可视化图。
总结
以上就是LncRNA转录组分析报告的所有内容,分析所用到的参考基因组、软件及数据库,都可以在网页报告末尾进行查看。
LncRNA转录组测序的结果同样可以先查看QC和MAP,确定测序质量和样本质量没有问题,再重点查看DGE文件查看定量结果,筛选出关键分子,再利用FUN文件夹挖掘功能。