干货|转录组测序报告解读


QC主要是统计的测序数据量以及测序质量,会统计下机数据量、clean后的数据量以及碱基质量,一般mRNA转录组测序数据量在6G(人或小鼠,其它物种需要根据参考基因组大小计算)以上即可,即下表Raw bases在6G以上,Q20和Q30是碱基正确率,比例越大越好。

QC还进行了可视化展示,A图展示碱基正确率,分布在绿色区域内表示正确率较高;B图展示read长度,我们测序方式为双端150bp测序,所以一般绝大多数read分布在150bp长度;C图统计的GC含量,每种生物的GC含量比较固定,GC含量一般属于正态分布。

MAP主要是和参考基因组比对的结果,有参转录组是确定物种的测序,数据分析时需要和参考基因组就行比对,MAP率也可以进一步帮助老师确定样本质量和确定样本是否可能存在污染;如果选用的近源物种,也会造成MAP率偏低;参考基因组的注释与详细程度也会影响到MAP率。一般来说MAP率越高,说明质量越高。

可视化结果中,A图一般编码区read占比最多;B图一般是已知剪切位点占比多;C图不存在5’/3偏差则测序实验质量很好;D图随机选择各样本比对数据量的5%,10%,15%,...,95%用于分别计算转录本的表达量并且得到相对于当前测序量的表达量比值, 如果几条线最后变平,说明测序数据量基本已经饱和。

图片

查看C图可以快速确认结果的质量,如下图有较严重的3端偏好性,可能RNA存在降解。

图片

L

测序下机的Reads不能直接用于数据分析,需要把Reads比对到参考基因组上,组装成转录本,才能进行下一步的分析,此文件夹可以查看各类转录本的数量,以及转录本的序列及注释文件。

此文件夹内对所有的样本的基因进行了定量以及对组间做了差异分析,一般是转录组测序需要重点关注的文件夹。首先,可以查看fpkm值表格,了解整体基因的表达水平。

箱形图,pca图和样本相关性热图可以用来确定是否有异常样本,离群的样本可以考虑剔除。


Case vs control是差异分析的文件夹,这里会比较实验组和对照组的差异,利用deseq2筛选差异基因(筛选标准为差异倍数大于2,p小于0.05;注:如果是1vs1样本,由于p值没有生物学意义,建议仅筛选差异倍数)。

筛选出来的显著差异基因会绘制火山图和热图,分析报告中由于差异基因数量较多,都未标注基因名,老师们如果需要标注基因名,可以联系我们进行标注。

表格详细统计信息如下,可以在表格中进一步筛选p值和foldchange,该表格中的表达都是提前取了log2的,差异倍数也是取了log2的,所以真实的差异倍数是2的log2foldchange次方,log2foldchange为正即代表上调,为负为下调。

图片

部分老师老师在默认的筛选条件(差异倍数大于2,p小于0.05)下,没有筛选出目标基因,此时可以在总表中,改变筛选条件(一般可以降低差异倍数,筛选更多差异基因),重新筛选基因,筛选出的基因集,需要重新做下游的分析,此时可以利用我们的云平台进行下游分析,如果老师需要,可以联系我们索取。

merge文件夹中展示了基因和转录本的原始count值、log2fpkm及log2normalized count,具体表格确认文件名即可区分。老师们如果想自行分析或者利用其它软件分析,可以利用原始count值表进行分析。

针对基因的可变剪切,报告中也分析每个样本的可变性剪切事件。

可变性剪切事件类型包括可变性剪切事件包括SE(Skipped exon外显子跳跃), RI(Retained intron内含子延伸),A5SS(Alternative 5' splice site外显子5端可变剪切), A3SS(Alternative 3'splice site外显子3端可变剪切), MXE(Mutually exclusive exons外显子互斥)。

针对筛选出的显著差异基因,以及差异可变剪切基因(AS后缀的文件夹分析的是差异可变剪切基因),我们会利用GO、KEGG、reactome、disease四个数据库进行功能富集分析。我们会统计所有富集到的通路和显著富集到的通路,一般查看带significant标识的表格,即显著富集到的通路即可。

一般p小于0.05被认为是显著富集到的通路,可以从表格中筛选感兴趣的通路以及富集到的显著差异基因。

图片

显著富集的通路top20有不同的可视化图展示,具体的可以在分析报告中查看。因为二代测序是大通量检测差异的手段,往往top20不是老师感兴趣或者目标的通路,此时可以选择目标的通路,我们可以重新绘制目标通路的可视化图。

 A一般的功能富集分析往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势。

分析报告中的GSEA同样会统计总的通路表格和显著富集到的通路表格。一般p小于0.05会被认为是显著富集到的通路,重点查看GSEA result filter表格即可。

以及绘制top10通路的通路图。同样的,老师如果在top10中没有找到感兴趣的通路,可以在表格中进行筛选目标通路,交由我们作图。

以上就是转录组分析报告的所有内容,分析所用到的参考基因组、软件及数据库,都可以在网页报告末尾进行查看。


一般在拿到转录组结果时,可以先查看QC和MAP,确定测序质量和样本质量没有问题,再重点查看DGE文件夹筛选感兴趣的差异基因,最后利用FUN和GSEA文件夹挖掘基因的功能。

图片


分享