文献解读:机器学习的方法来识别与致癌去分化相关的干性特征

机器学习的方法来识别与致癌去分化相关的干性特征

今天小编要为大家介绍一篇18年五月发表在Cell上的高质量的干性分析文章[Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation; 2018.05; IF:31.398],众所周知,癌症进展涉及分化表型的逐渐丧失以及起始细胞和类干性细胞特征的获得。未分化的原发性肿瘤更可能导致癌症的远端转移,引起疾病进展以及不良的预后,尤其转移通常对现有的治疗方法具有抗性。在本文中,作者提出了一个干性指数用来衡量致癌去分化的程度,使用的是一类逻辑回归算法(OCLR),这个算法采用机器学习的方式从未转化的多能干细胞及其子代中提取转组及表观组的特征集。这个算法能够发现之前未曾发现的与致癌去分化相关的生物学机制。文章还进一步对肿瘤微环境进行了分析与刻画,揭示了肿瘤免疫检查点的表达及免疫细胞浸润与肿瘤干性的关系。在研究中作者发现致癌去分化表型普遍出现在转移的肿瘤中,进一步将干性指数应用到单细胞数据中,能够揭示瘤内的分子异质性。研究表明,这个干性指数能够帮助识别发现针对肿瘤分化的治疗靶点。

首先给大家介绍下,文章的主要流程

1A

研究过程主要分为开发和应用两大部分:

1.算法的训练:

① PCBC,Roadmap,ENCODE等数据库中获得干性细胞的表达,增强子,甲基化等干性细胞Signatures。

② 训练OCLR算法,这是一种机器学习算法

2.干性指数的应用:

① 计算TCGA数据库中33种癌型的1200例样本的干性指数(mRANsi,mDNAsi)

② 将基因突变,基因表达,DNA甲基化,蛋白表达,miRNA表达,通路分析,肿瘤组织学,临床数据及药物敏感性进行综合的整合分析。

介绍完文章的主要方法与流程之后,然我们来看下文章得到了哪些重要结果吧

结果一:基于mRNA表达以及DNA甲基化的干性指数的刻画

1B,C

为了验证作者得到的表达干性指数mRNAsi量化干性的准确性,找了一套外部数据来帮助验证,如图1B,所示:体细胞,细胞系等分化程度较高的细胞的mRNAsi相对很低,而胚胎干细胞等干性程度高的细胞的mRNAsi也更高。同样DNA甲基化也有相似的结果,验证了OCLR得到的干性指数的准确性。接下来作者又计算了TCGA数据库中,不同癌型的两类干性指数,可以观察到:TCGA的癌症的干性程度具有多样性,及其组织特异性。

2A,B

接下来作者又进行了GSEA功能富集,探索基因集与干性marker以及癌症的Hallmark之间的关系,可以观察到显著富集到干性相关的marker并且多数与癌症的Hallmark正相关,(图2A)然后又计算了mRNAsi与干性marker的相关性,如图2B所示。

2C

2D

作者接着结合MSigDB数据分析每个癌型中,基于表达的干性指数与致癌去分化过程之间的关系。(图2C)在研究基于DNA甲基化的干性指数时,作者选择的探针大多位于非启动子元件中,而SOX2-OCT4转录因子结合motif是这些区域中含量最高的标记之一。主要因为SOX2-OCT4复合物是多能性和干性的关键主调控因子,并且在mDNAsi高的肿瘤样本中高度富集

结果二:指数可以对未分化的癌症进行分层

3

作者进一步探索乳腺浸润性癌(BRCA)、急性白血病(AML)和胶质瘤,以研究mRNAsi/mDNAsi是否预测低分化肿瘤的干性。在乳腺癌中,干性指数与已知的临床分子特征有很强的关联性。作者进一步对白血病以及胶质瘤进行分析,同样发现了类似的结果。并且在不同肿瘤与不同亚型之间具有异质性。

结果三:mRNAsi和mDNAsi与基因突变、miRNA和蛋白表达的相关性刻画

4

作者进一步在不同癌型中,刻画这两种干性指数与基因突变,miRNA,以及重要蛋白表达之间的关系。如上图所示,无论是在肺腺癌(LUAD)还是头颈癌(HNSC)以及LIHC和ACC中,这两种干性指数,都与一些重要突变,miRNA以及一些重要干性相关蛋白的表达显著相关。并且在不同亚型中具有异质性。接下来,作者又用cox风险回归,发现这两类干性指标与PFS以及OS这两类生存时间负相关。

结果四:干性指数在转移的癌症中更高并且能够揭示瘤内异质性

5

作者首先用一套转移型的外部数据,将其干性指数与TCGA原发性肿瘤的干性指数与TCGA的正常样本的干性指数相比较,结果表明,在转移的癌症中干性指数普遍更高。又在比较了胶质母细胞瘤的原发和复发的干性指数,复发的干性指数明显更高。作者又探究了在单细胞胶质瘤以及乳腺癌的数据中干性指数情况,同样发现转移的癌型指数更高,并且具有很强的瘤内异质性,揭示了瘤内异质性的分子模式。

结果五:在免疫应答的背景下评估干性指数

6

作者进一步探究干性指数与肿瘤微环境之间的关系。图6A计算了在各个癌型中干性指数与白血球得分以及PD-L1蛋白表达的相关性。发现部分显著负相关的肿瘤由于免疫细胞浸润不足或PD-L1通路预先存在下调,这些肿瘤对免疫检查点阻断治疗的敏感性较低,进一步抑制效果不佳。在图6B中,作者又对不同癌症的不同亚型进行进一步研究,发现不同癌型的不同分子亚型的干性指数与白血球得分以及PD-L1的相关性存在区别。

结果6:Connectivity Map分析识别针对具有干性特征的signature的化合物或抑制剂

7

作者使用CMap,用于发现基因、化学物质和生物条件之间的关联,以寻找可能针对与干性相关通路的候选化合物。最终在至少三种癌症类型中发现了与干细胞相关化合物的富集。(图7A)最近的多药理学研究表明,需要设计作用于多个基因或分子途径的化合物。在本研究中,我观察了不同化合物之间相似的作用机制,这表明选择性治疗可以针对特定癌症类型的未分化表型。

到这里,这篇文章的主要内容就介绍完了,可以看出这篇文章的研究从干性程度的量化方面入手,在泛癌中分析了多个层面,涉及了多组学的分析,很多值得我们学习借鉴的地方。

分享