标准分析套路之差异基因比较

1.png

恶性胶质瘤 (GBM)是常见的恶性原发性脑瘤,手术切除后其治疗耐药性以及复发性导致恶性胶质瘤的5年生存率仅为5.5%。烷基化药物TMZ是治疗GBM的常规药物,然而GBM对TMZ的抗药性又致其难以进行。因此这篇文章进行了GBM对TMZ耐药机制的研究,并发现了全新的抗GBM耐药性靶点lncRNA:Lnc-TALC。

GBM耐药机制:lnc-TALC可以通过竞争性结合miR-20b-3p调节c-Met信号通路,通过调节乙酰化的表达和TMZ抗性组蛋白H3激活Stat3 / p300复合物以促进MGMT

研究思路:

1、lnc-TALC在TMZ-resistant恶性胶质瘤细胞中高表达

实验和数据库数据差异分析找出并确定lnc-TALC在TMZ-resistant恶性胶质瘤细胞中高表达。

2.png

2、磷酸化的AKT / FOXO3调节lnc-TALC表达

AKT影响FOXO家族,使用数据库(JASPAR)预测lnc-TALCDNA结合元件(MBEs),发现FOXO3,验证发现它参与调节lnc-TALC的表达。

3、lnc-TALC促进TMZ耐药细胞中的c-Met表达

数据库差异分析,找出显著高表达基因以及基因通路;

c-Met signaling pathway影响 lnc-TALC诱导的TMZ抗性。

4、miR-20b-3p参与调节Lnc-TALC介导TMZ耐药性

ceRNA网络:数据库查找可靶向结合Lnc-TALCMET 3′UTRmiRNA(miR-20b-3p and miR-335-3p)

lnc-TALC可以通过竞争性结合miR-20b-3p调节c-Met信号通路

5、Lnc-TALC通过调节H3乙酰化增加MTMG

lnc-TALC通过重构组蛋白H3MGMT启动子区乙酰化,增加MGMT表达

MTMG是一种蛋白修复酶,参与烷基化药物治疗癌症的过程

Conclusion:

通过lncRNA芯片发现AKT介导的TMZ耐药诱导的GBMlncRNA lnc-TALC通过重构组蛋白H3MGMT启动子区乙酰化,从而捕获miR-20b-3p,激活c-Met,增加MGMT表达。lnc-TALC可作为克服TMZ耐药的治疗靶点,提高GBM患者TMZ化疗的临床疗效

3.png



分析流程:

两组(生存、用药、肿瘤癌和癌旁、患病和正常)的差异基因比较

内容:

1.      数据检索下载、标准化和差异分析

2.      差异基因的热图、火山图

3.      差异基因的GO、KEGG富集分析(富集图、网络图、通路图)

4.      差异基因的相互作用、共表达网络图、核心基因分析

5.      (如果是miRNA和lncRNA,还有靶基因预测,以及ceRNA分析)

6.      与明星基因(炎症、自噬、免疫、凋亡等等)的关系分析

7.      候选基因的生存曲线分析以及独立数据集验证

以文章为例阐述分析流程:

1.数据检索下载、标准化和差异分析

上述文章中,除实验数据外,用到的数据库有CGGA ,TCGA,GEO, JASPAR等。lnc-TALC是通过实验,然后生信分析找出,目前这组数据已保存于GEO数据库(GSE113510)中。另外,在寻找miRNA分析中用到了GSE32466这组数据(见下图),我们以这组数据为例,展示GEO数据库的使用过程。

Database :基本GEO 数据处理分析流程:

1、GEO芯片表达数据获取;

2、表达数据注释;

3、表达数据标准化(芯片数据log归一化);

4、数据临床分组获取;

5、根据样本分组对表达数据差异分析。

4.png

GEO使用教程截图:

1、输入数据编号

5.png

2、获取数据信息和数据

以GSE113510为例:

6.png

数据于2014年9月28日公开,人的原发与复发胶质瘤miRNA测序数据;

该编号数据包含24个样本,GSM为样本编号,后面是该样本的分组;

7.png

数据获取有多种方法,其中通过下载Slementary file提供的原始芯片数据是方法的一种,数据下载后需要注释和标准化,这些可以通过专业的统计软件R进行处理。数据的注释文件在“ platforms”中。

3、数据分析

另一种数据获取的方法是GEO提供给用户的“Analyse with GEO2R”,同样需要使用软件R,使用方法见下图:

8.png

9.png

2. 差异基因的热图、火山图

差异分析结果可视化的方式有热图和火山图,文章中分别使用了热图和火山图的方式展示了lncRNA的差异结果,清晰简明。下面是热图和火山图的示例图:

10.png

11.png

3.差异基因的GO、KEGG富集分析(富集图、网络图、通路图)

差异基因的数量往往较多,想要找出有特定功能的基因就需要依赖基因的功能以及通路的富集分析,可以快速确定特定通路下的某些基因。下图为某类差异基因通路分析的结果以及通路图:

上述文献中,差异分析lncRNA之后,使用ssGSEA算法对lncRNA的功能进行注释,注释结果显示差异的lncRNA的富集情况(Single-sample gene setenrichment analysis (ssGSEA) illustrated that the top 30 upregulated lncRNAswere associated with the Gene Ontology (GO) and KEGG pathways enriched in theregulation of DNA repair and the MAPK signaling pathway, among others)

12.png

13.png

4.差异基因的相互作用、共表达网络图、核心基因分析

异常表达的基因彼此间往往相互影响、相互作用,因此探寻基因的影响网络寻找核心基因至关重要。根据现有研究和数据库信息去挖掘差异基因间的相互作用关系;基于基因的表达谱以及相应的算法寻找基因的共表达关系;这些网络可以帮助快速确认差异基因的核心基因。

5. ceRNA分析

竞争性内源RNA(competingendogenous RNAs),简称ceRNA,是从功能上定义的一类RNA的总称。ceRNA具有miRNA结合位点,能后竞争性地结合miRNA,抑制miRNA对靶基因的调控。ceRNA包括mRNA、lncRNA、circRNA等。

通过进行ceRNA分析,我们能从一个更为宏观的角度来解释转录体如何构建基因表达调控网络,从而进一步挖掘基因在其中的调控机制。

上述文献中,通过(lnc-TALC)—(mir-20b-3p)—(MET)这样的ceRNA网络从而解释了lnc-TALC对c-met信号通路的影响。

6.与明星基因(炎症、自噬、免疫、凋亡等等)的关系分析

搜集在癌症中被广泛研究、作用机制研究较多的明星基因,并针对其功能和作用时期分类为apoptosis(凋亡),EMT(上皮细胞间质转化),proliferation(增殖),G0_G1(细胞周期-染色质、蛋白复制),G2_M(细胞周期-分裂)和Immune microenviroment(细胞免疫微环境)。对每一种类型,核心差异基因和明星基因分别根据表达谱数据计算相关性并进行统计学检验。

下图为核心基因和细胞凋亡基因之间的相关性散点图:

14.png

7.候选基因的生存曲线分析以及独立数据集验证

核心基因筛选出来之后,使用生存图来了解这个基因与疾病的生存率之间的关系。生存图能直观地描述基因的高表达和低表达两组患者的生存状况,从而揭示基因的表达情况对疾病预后的影响。

上述文献中,使用生存图直观说明低表达的lnc-TALC在TMZ药物治疗中收益显著(见下图)。

15.png

文献中提及的脑胶质瘤数据库CGGA:

Database : CGGA ( the Chinese GliomaGenome Altas中国脑胶质瘤基因组图谱计划)

该数据库是针对胶质瘤的开源数据库,由蒋涛教授团队建立,旨在帮助探索胶质瘤的发病机制和复发机制。到目前为止,已经有100多篇SCI论文,直接或间接使用该数据库20多个项目。

该数据库包括全外显子组测序(286),DNA甲基化(159),mRNA测序(1,018),mRNA微阵列(301)和microRNA微阵列(198)以及相应的临床数据,相应的基因组数据和患者的随访信息均来自CGGA

进入CGGA的网页之后,可以看见数据库的简介(Overview),数据情况统计(Statistics)以及该数据库提供的分析工具(Features);

在导航栏,可以根据需要,选择使用该数据库的数据进行分析(Analyse),还是下载数据(Download);

16.jpg

download页面,可以看见数据库的全部数据,数据均可获取。

17.jpg

Analyse

全外显子组测序:

CGGA 286名肿瘤/血液配对患者进行了全外显子组测序。该功能允许用户描述突变情况或对特定胶质瘤亚型进行生存分析

全外显子组测序:1、特定胶质瘤亚型突变情况预览

18.jpg

19.jpg

20.jpg

全外显子组测序:2、特定胶质瘤亚型生存分析

21.jpg

22.jpg

mRNA测序:

CGGA中,我们分别对325例和682例患者进行了mRNA测序。此外,我们还对301例胶质瘤患者进行了mRNA表达微阵列检测。该功能允许用户配置基因表达分布,进行相关性和生存分析。

23.jpg

mRNA测序:1、基因表达分布

以箱型图的形式显示各亚型和临床下的关注基因的分布情况

24.png

mRNA测序:22基因相关性分析

散点图展示两个基因的相关程度

25.png

mRNA测序:2、基因生存分析

26.png

甲基化数据,miRNA数据的分析工具使用方法与mRNA测序数据相同


分享