转录组测序数据如何挖掘核心基因?

随着测序技术的进步,真核转录组测序凭借高通量、价格低、周期短等优势,广泛应用于科学研究中。而发表高分转录组文章的过程中,对目标基因集的挖掘和探讨,往往才是重点。转录组数据量庞大,有大量的差异基因,多个数据库的富集分析结果。那如何快速对目标基因集进行分析,从海量的分析结果中筛选关键目标基因,小编梳理了以下的分析思路供您参考。


01
筛选思路

图片


候选基因应该与老师所研究的课题方向密切相关,并在某一生命过程中发挥核心的生物学功能、参与重要的通路。基因功能的背景信息可以来源于参考基因组注释、基因功能数据库(如GO、KEGG)注释或者相关研究的文献和综述等,获取可能相关的基因、GO和KEGG通路信息,然后在自己的测序结果中进行筛选。无论通过怎样的方式进行数据筛选,人为的解读和数据挖掘是必不可少的。


02
筛选方法

图片


1

基于GO/KEGG富集分析结果


①打开GO富集结果GO_enrichment_topGO文件,在GO Term列中,用关键词逐一筛选与您研究相关的生物学功能,通常认为classic_fisher(pvalue)小于0.05的Term达到了显著富集程度,可以重点关注。获得相关显著富集的GO Term后可以在同表格里看到注释到相关GO Term的所有差异基因信息(SymbolList列),示例如下:


②打开KEGG通路富集结果KEGG_enrichment文件,在Pathway_name列中,用关键词逐一筛选与您研究相关的通路,常认为classic_fisher(pvalue)小于0.05的通路达到了显著富集程度,可以重点关注。获取关注通路的富集情况后可以参照GO筛选方法,即可获得注释到关注通路的所有差异显著基因的信息(SymbolList列)。示例如下:


PS:富集分析包含GO、KEGG、Disease、Reactome四种数据库的富集分析结果,其中TOP GO/enrichment为富集分析总表;Significant为其中显著富集的通路list


2

基于GSEA分析结果


GSEA从基因集的富集角度出发,理论上更容易囊括细微但协调性的变化对生物通路的影响。我们可以基于GSEA分析结果筛选在实验组或对照组中富集的基因集(GO条目、KEGG通路等),发现那些被传统分析遗漏但具有一致表达趋势的通路,更全面的挖掘生物学规律。

PS:折线上升段代表基因集成员连续聚集,ES的绝对值越大,基因集在列表的顶端(正相关)或底端(负相关)富集越显著。可通过Leading edge位置锁定关键调控基因,揭示弱效应基因集的协同作用。



3

筛选候选基因


表达丰度:受系统噪音影响,低表达丰度基因(FPKM值<5)可能并不可信,建议选择表达丰度中等水平的基因进行后续研究。

差异筛选:若已有关注基因可以直接筛选查看对应基因的差异情况,若无关注基因,可根据差异倍数或者p值排序筛选极显著且差异较大的基因作为候选基因。

注意基因名:在PubMed上查询候选基因的相关文章数量,建议选择较新的基因(文献数量<100)开展深入研究,请注意同一个基因常存在多个别名。

特殊基因:可以通过转录因子家族分析或者蛋白质-蛋白质相互作用(PPI)网络分析筛选关键基因或者核心蛋白。


4

看趋势进行定位

有时候我们需要在多个细胞系中探索敲除(或敲减)某基因后共同差异变化的基因,或者是过表达某基因或敲减某基因的体系中变化相反的基因,或者是动物模型或细胞模型中用药后表达有回复的基因,亦或者是关注响应时间序列或浓度梯度变化的基因,上述目的往往需要结合两个比较组或多个比较组的差异分析信息,以下筛选方法供参考:

(1)韦恩图:

可以用韦恩图筛选不同比较组(不同基因集)共同的基因和特有基因,比如共同差异表达基因、特有差异表达基因等,并将这种筛选过程和结果可视化。灵活利用韦恩图可以通过一次筛选或多次筛选获取我们关注的核心基因集,然后可以对核心基因集进行进一步分析。比如利用韦恩图筛选某基因敲减组差异上调基因和过表达组差异下调基因的交集,然后对交集的基因集进行富集分析查看其具体影响的通路。

(2)表达趋势分析:

当老师样本为不同时间节点、浓度梯度、治疗或用药前后的这种设置时,若进行两两比较筛选,当样本组较多时可能需要多次的相交筛选才能获得目标变化趋势的基因集。

在差异基因merge文件夹中,有不同组别的差异基因overlap的结果,可以在结果中筛选同步上调/同步下调/处理后下调,用药后上调的基因集。示例如下:

通过筛选基因集可以快速获得我们关注趋势的基因集或者哪种变化趋势是最显著的变化趋势。然后针对目标基因集进一步分析即可。




通过以上这几种分析方式可以找到目标功能、性状或不同实验处理中的核心基因。当然,除了以上方法,将转录组数据与蛋白组/代谢组等组学数据进行联合分析也可以进一步缩小目标基因的筛选范围。

将多种分析方法及筛选路径结合使用,更能提升我们筛选到的核心基因的可靠程度,降低后续实验失败的概率。

分享