基因富集分析是在一组基因中找到具有一定基因功能特征和生物过程的基因集的分析方法,在研究差异表达基因、筛选基因的后续分析中经常使用。富集分析能够发现在生物学过程中起关键作用的生物通路, 并且帮助理解生物学过程的分子机制。它是快速调查目标基因集功能倾向性的方法之一。
基本原理
现在的高通量测序带来的巨大数据量,只关注单纯的某个基因的做法越来越不能说明问题,想要从庞大的关系网络中挑选出有效信息,比如将某几个基因和某个期待的生物学现象结合起来,这个事直接做是很困难的。因此为了降低研究的复杂度,学者将不同生物学现象与基因的对应关系做成了多个数据库。当我们手上有特定基因(如差异表达基因)时,可以与不同数据库中不同生物功能的基因集进行比对,这个过程就叫做富集分析。
富集分析大体有ORA、FCS、PT、NT四类算法,其中最常用的为ORA(OverRepresentation Analysis),是一种对感兴趣的基因集和背景基因集进行列联的算法,通常对列联表进行超几何分布检验或者fisher检验获取检验p值。
Enrichment术语解读
基因集(gene set)
基因集是一系列具有相同生物学特征的基因构成的集合,比如某一条代谢通路(pathway),中有很多基因参与,因此位于同一条通路下的基因就构成了一个基因集合。其中感兴趣的基因集通常为差异基因,也可以单独取上调、下调表达的。背景基因集则是在KEGG、MSigDB等数据库中已有注释的基因。
数据要求
1、差异表达分析或其他方式获取的感兴趣的基因集。
2、具有已知生物学意义(GO、Pathway、癌症特征基因集等)的背景基因集。
3、基因表达数据(或突变数据、甲基化数据等)
下游分析
1. PPI基因相互作用分析与互作网络绘制
2. 基因靶向药物分析等
图形示例:
应用示例:
文献1:Spectrum andprognostic relevance of driver gene mutations in acute myeloid leukemia.(于2016年8月发表在blood上,影响因子16.562)
急性髓系白血病驱动基因突变谱与预后相关性研究
文章基于驱动基因突变情况将急性髓系白血病患者划分为8个亚型并研究了这些亚型患者预后的差异。文中绘制富集图分析了驱动基因之间突变的相关性。
文献2:Hidden Markovmodels lead to higher resolution maps of mutation signature activity in cancer(于2019年7月发表在Genome Med,影响因子10.886)
隐马尔可夫模型阐明癌症中的突变特征
作者使用机器学习算法HMM癌症中的基因突变进行分析,并获得多个关键的突变特征。文中绘制绘制富集图展示了不同突变特征间的转换频率。