巧用TCGA数据库挖掘miRNA预测HCC患者存活

1.jpg


1

前言引索


震惊!!!


肝癌是引起死亡的第二大癌症!


好吧,这只是先来造个势……


肝癌——相信大家一定不陌生,肝细胞癌(HCC)是最常见的一种肝癌,不幸的是多数HCC患者在诊断时已属晚期,找到HCC特异性相关的预后因子的重要意义不言而喻。


如何快速、准确找到HCC预后因子呢?今天我们来看巧用TCGA数据库,找出特异表达miRNA,用以预测患者存活。


2

逻辑思路


  1. TCGA数据库筛选数据

  2. miRNA表达数据分析

  3. DEMis与临床参数关系

  4. DEMis和临床参数与HCC生存情况的关系

  5. miRNA靶基因的KEGG pathway分析


3

方法剖析


1. TCGA数据库筛选数据


TCGA数据库筛选到327个HCC患者的miRNA数据,其中43个同时含有癌旁组织的数据,具体筛选步骤参考下图


2.jpg


患者的临床数据如下表所示,各临床参数是后续分析的基础之一,大家自己分析时可以参考如何选取合适的临床参数指标


3.jpg


2. miRNA表达数据分析


miRNA表达数据下载:TCGA数据库

BRB-ArrayTools是一个好用的分析芯片数据的工具,这里就是用该工具进行差异表达miRNA筛选和差异miRNA的表达聚类分析。设定p值<0.001和FDR<0.001,得到207个差异表达miRNAs (DEMis),其中77miRNAs (31.2%) 上调,130miRNAs (62.8%)下调,差异基因的表达聚类图见下图


4.jpg


显著差异的前50个miRNA见下图


5.jpg


差异基因筛选、表达热图的分析方法也有很多,例如R语言也是一个不错的选择,总之不用局限于参考文献提供的方法哟


3. DEMis与临床参数关系


基于临床参数分析上述207 DEMis的表达差异性,其中有78 个miRNAs是与临床参数相关的显著性差异表达(p<0.001),详细可见下表。


6.jpg


4. DEMis和临床参数与HCC生存情况的关系


对207 DEMis进行COX比例风险模型分析,有7 miRNA与患者的存活时间相关 (P< 0.001) 。hsa-mir-326, hsa-mir-3677, hsa-mir-511-1, hsa-m ir-511-2, hsa-m ir-9-1, and hsa-m ir-9-2 与生存时间负相关


7.jpg

8.jpg

9.jpg


hsa-mir-30d与生存时间成正相关


10.jpg


特征miRNA与临床参数的关系

基于筛选出来的7个miRNA分析临床参数对患者生存情况的影响,下表是进行单因素和多因素分析的结果,图则是结果的可视化。


11.jpg

12.jpg

13.jpg


5. miRNA靶基因的KEGG pathway分析


DIANA-mirPath对7-miRNA的靶基因预测并进行KEEG pathway分析,KEGG分析的工具、网站还是有蛮多的,靶基因预测的网站有不少,如miRWalk、starBase、CRN 、Firehose……方法不要太局限


14.jpg


对KEGG富集结果中的各pathway进行简单分类:癌症相关 vs 非癌症相关,就得到下表,全篇的主要研究内容也就基本介绍完咯


15.jpg


4

思维散发


该文章研究方(tao)法(lu)简单、可取,数据来源于TCGA,不做实验发文章,涉及的生信分析方法也简单,当然条件允许可以加几个临床上miRNA表达等实验验证一下,不会很费劲但有助于发更好地文章哟!


在后续预测靶基因后也还有继续数据挖掘的空间,构建miRNA-mRNA网络,找出关键基因,进行GO功能、通路富集分析及蛋白互作网络等等,数据挖掘是对数据多向思维分析,把握好广度和深度的取舍就好啦~

分享