利用TCGA数据库挖掘MicroRNA预测多形性胶质母细胞瘤的预后

1.jpg


1

前言索引


多形性胶质母细胞瘤(glioblastoma multiform,GBM)是最常见的中枢神经系统原发性肿瘤,目前针对该病的治疗以手术、放化疗为主,但疗效较差,特别是患者的总生存率(overall survival,OS)仍然不容乐观。


众所周知,miRNA在各种生物过程中起主要作用,目前针对miRNA的作用中主要以基础实验为主。而miRNA与GBM的关系已经有相关的文献进行了报道[1]。


现在较多的研究主要是通过收集临床样本进行基础实验的方法来验证。那么有什么比较省钱又能做出满意的科研效果的方法呢?


看过前几期文章的人应该对我们的套路有了一定的认识,那就是生物数据库的挖掘及使用


本次通过TCGA的数据库为基础,挖掘有利的数据后采用统计学方法来评估miRNA对GBM患者总生存期(OS)的预测价值。主要思路是什么呢?请往下面看。


2

逻辑思路


1.挖掘miRNA数据:不废话,这是基础,不想做实验就要学会充分利用数据库进行数据挖掘,省钱又省事,还有理论依据,毕竟这是站在前人的肩膀上。在TCGA(https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp)网站中搜索及选择了GBM的3级miRNA表达谱。那么怎么选择数据呢?因为本次研究的目的是要观察患者的OS,所以那些重中之重是要避免生存率<1个月的患者。


2.数据处理:拿到了数据后围绕目的,在GBM中鉴定具有预后价值的miRNA,在这个文章中,主要采用了R语言进行标准化,选取的miRNA系数矩阵为≥0.04或≤0.4。然后采用了主成分分析进而Lasso法用于高维数据回归分析来筛选miRNA。而针对GBM预后的影响预后的因子中,作者选用了患者的临床指标:年龄、性别、筛选的miRNAs。


3.预后模型和ROC曲线的使用:总所周知,要观察预后的情况,Cox回归模型为的建立是必不可少了的,因此在这里,作者建立了线性miRNA预后模型来估算患者的预后评分。并采用了ROC曲线来观察预后的性能。而在5年OS的测试组的ROC曲线中,依据最佳敏感性及特异性的预后评分为临界值,分为了高风险组和低风险组。采用Kaplan-meier曲线评估两组的生存情况,以P<0.05为具有统计学意义。


4.目标预测和富集分析:本次研究的miRNA的靶基因由miRWalk(www.umm.uni-heidelberg.de)预测,其提供了可能的miRNA靶标的综合数据。Pathway富集分析通过GeneTrail基因集合富集工具进行。结果经FDR校正后P<0.05为具有统计学意义。


3

方法剖析


接下来,我们的重点来了,看看作者到底怎么用这些数据的,得到了什么结果呢?


1.具有预后价值的miRNA:依据纳入标准,作者共纳入了563例患者,根据主成分分析后470个miRNA中选出了315个miRNA的成分评分系数矩阵≥0.4或≤0.4。经LASSO分析之后,将315个miRNA进一步减少为9个潜在预测因子(见下图)。


2.jpg


包括hsa-miR-148a,hsa-miR-175p,hsa- miR-222,hsa-miR-302d,hsa-miR-487b,hsa-miR-608,hsa-miR-646,hsa-miR-649和hsa-miR-675。对于随后的分析,我们将患者随机分为training set(n = 282)和testing set(n = 281)。两组平均年龄分别为58.0和57.9岁。两组患者年龄和生存时间无显着差异(P> 0.05)。


多变量逻辑回归分析包括以下临床指标和9种miRNA后,作者发现hsa-miR-222,hsamiR-302d,hsa-miR-646和年龄是预测患者OS的影响因素,见表1。


3.jpg


2.miRNA预测模型的建立:依据上表的结果,我们可以轻易的得出预后评分的公式了:预后评分=(0.112×hsa-miR-222表达水平)+(-3.671×has-miR-302d的表达水平)+(- 2.971×hsa-miR-646的表达水平)+(0.023×年龄)。


然后依据这个公式,作者算出GBM中5年生存率预测能力的,经ROC曲线绘制后,training set的曲线下面积(AUC)为0.841(95%CI,0.689-0.993)(图2A),testingset的AUC为0.894(95%CI,0.789-1.000)(图2B),所有GBM患者的AUC为0.854(95%CI,0.744-0.964)(图2C)。


4.jpg


根据用于预测testing set的5年OS的ROC曲线,在截止点为-36.5428时,灵敏度为90.6%,特异性为75.0%,因此以此作为计算最佳预后评分的临界值,分为两组:高风险组和低风险组。与风险较低的患者相比,TCGA GBM的患者的风险评分较高的患者OS明显短于高评分的患者(P<0.001)(图3)。


5.jpg


3.三个miRNA在GBM的靶标预测及功能富集分析:由miRwalk数据库(http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/)预测三个miRNA的靶基因数量分别为9017个、15613个和9625个。


然后进行功能富集分析,以阐明三个miRNA特征的靶基因的生物学功能,结果发现共有645条路径,纳入了GO分析的前20个富集的功能分析见图4。


由图我们可知,最主要的的生物过程是转录调控。最主要的富集通路为轴突导向信号通路。


6.jpg


4

思维发散


看完上述的讲解,大家对数据的使用方法和意义是否用了一定的了解呢?


这篇文章的特点相信大家也能有个总结,没做实验、没纳入临床数据分析,但是分值还有点小高(本篇IF=5.168),那么为什么能发出这个分值的文章呢?


本编认为除了充分利用TCGA数据库外,作者还结合了自己扎实的统计学知识对数据的利用达到了出神入化的地步。首先拿到数据后,在心中默念三遍自己的研究目的——生存预后分析,然后生存预后分析常用的方法是什么?纳入临床样本研究,但是好麻烦,这里都有数据了,可以直接分析了啊,那就logistic回归分析、Cox回归分析一起来吧。


基于这篇文章,我们可以看出作者的思路明确且套路满满,最大化的利用了生物信息学挖掘的资源来做了GBM的生存预测,且效果不错。经过这一系列的分析就得到了结论,三个miRNA(hsa-miR-222,hsamiR-302d,hsa-miR-646)能对GBM的预后进行有效的预测。


现在大家对这篇文章是不是有了较深的了解了呢,沿用这个思路,我们可以引申到其他疾病中,若想在此基础上更深入的了解的话,还可以结合临床样本进行验证,相信也会是一个不错的思路。


[1]高秀娟,陈熹,彦伟,等.血清microRNA在多形性胶质母细胞瘤术预后评估中的研究[J].中国肿瘤临床。2016,43(13):562-566.


[2]Yuan Y,Zhang H,Liu X,et al.MicroRNA signatures predict prognosis of patients with glioblastoma multiforme through the Cancer Genome Atlas[J].Oncotarget,2017,8(35):58386-58393.

分享