转移模型案例分析

1.png

该文章于2018年3月发表在Clin Cancer Res. (影响因子8.911)。

肝癌是导致全球男性死亡的第二大癌症。其中Hepatocellularcarcinoma HCC)是最普遍的癌症。它的病因因素包括HBV / HCV感染,非酒精性脂肪性肝炎(NASH),酗酒和吸烟。不同人群5年生存率差异较大,平均生存率都低于32%HCC的高度异质性以及复杂的病因因素使得预后预测困难。而且HCC治疗策略有限,因此迫切需要有效的预测病人生存的工具。

目前多数HCC分子亚型的探究并非基于生存,而是用生存来评估这些亚型的临床意义。

这篇文章将deep learningDL)计算框架用于多组学HCC数据库,发现HCC的两种亚型的存活率有显著差异。

研究人员使用TCGA的RNA-seq、miRNA-seq和甲基化数据,基于DL构建了360例HCC患者的生存敏感模型,该模型预测预后与考虑基因组学和临床数据的替代模型一。基于DL的模型提供了两组生存差异显著(P=7.13e-6)和模型适应度良好(C-index=0.68)的患者的最优亚组。更具侵略性的亚型与TP53失活突变频繁、干细胞标志物(KRT19、EPCAM)和肿瘤标志物BIRC5的高表达、激活的Wnt和Akt信号通路有关。研究人员在5个不同组学类型的外部数据集上验证了这个多组学模型[LIRI-JP(n=230, C-index=0.75);NCI(n=221,C-index=0.67);Chinese(n=166, C-index=0.69);E-TABM-36(n=40, C-index=0.77);Hawaiian(n=27,C-index=0.82)]。

文章思路:

1、研究使用了TCGA的数据以及另外五组数据。TCGA的数据含有样本生存信息,同时使用TCGA的数据训练SVM模型,并使用另外5组数据验证DL预后模型的预测精度。

使用scikit-learn包进行网格搜索,使用5次交叉验证(CV)找到支持向量机模型的最佳超参数,并构建了支持向量机模型。

使用深度学习框架进行特征转换。

TCGA360例HCC的RNA-seq、miRNA-seq和甲基化数据预处理后放入自动编码器中,自动编码器是一种无监督前馈非递归神经网络。学习算法如下:

   

2.png

特征选择与k-均值聚类

自动编码器将初始特征数量减少到从bottlenecklayer中获得的100个新特征。针对autoencoder产生的每一个变换后的特征,建立一个单变量Cox-PH模型,并从中选择特征,得到一个显著的Cox-PH模型(log-rank p-value < 0.05)然后,用这些简化的新特性使用K-means聚类算法对样本进行聚类。最后,使用两个指标确定集群的最有数量:Silhouette index、Calinski-Harabasz criterion

数据划分与稳定性评估

研究中按照60/40%的比例(训练/测试集)划分TCGA数据,以便产生足够数量的测试样本评估指标。

监督分类

在K-means聚类后,建立监督分类模型SVM算法对训练集的每个组学层进行归一化,然后根据ANOVAF-values选取与聚类标签相关性最强的前N个特征(由K-means得到)。为mrna设置默认值为100,为甲基化设置默认值为50,为mirna设置默认值为50

3.png

4.png

5.png

66.png

2、survival subgroups验证

①生存亚型临床协变量验证

6.png

②生存亚型差异分析,差异基因通路分析

7.png

8.png

9.png

分享