Multifactorial Deep Learning Reveals Pan-Cancer Genomic Tumor Clusters With Distinct Immunogenomic Landscape and Response to Immunotherapy10.107Clin Cancer Res . 2020 Jun 15;26(12):2908-2920. doi: 10.1158/1078-0432.CCR-19-1744. Epub 2020 Jan 7.
Abstract
Purpose: Tumor genomic features have been of particular interest because of their potential impact on the tumor immune microenvironment and response to immunotherapy. Due to the substantial heterogeneity, an integrative approach incorporating diverse molecular features is needed to characterize immunologic features underlying primary resistance to immunotherapy and for the establishment of novel predictive biomarkers. Experimental design: We developed a pan-cancer deep machine learning model integrating tumor mutation burden, microsatellite instability, and somatic copy-number alterations to classify tumors of different types into different genomic clusters, and assessed the immune microenvironment in each genomic cluster and the association of each genomic cluster with response to immunotherapy. Results: Our model grouped 8,646 tumors of 29 cancer types from The Cancer Genome Atlas into four genomic clusters. Analysis of RNA-sequencing data revealed distinct immune microenvironment in tumors of each genomic class. Furthermore, applying this model to tumors from two melanoma immunotherapy clinical cohorts demonstrated that patients with melanoma of different genomic classes achieved different benefit from immunotherapy. Interestingly, tumors in cluster 4 demonstrated a cold immune microenvironment and lack of benefit from immunotherapy despite high microsatellite instability burden. Conclusions: Our study provides a proof for principle that deep learning modeling may have the potential to discover intrinsic statistical cross-modality correlations of multifactorial input data to dissect the molecular mechanisms underlying primary resistance to immunotherapy, which likely involves multiple factors from both the tumor and host at different molecular levels.
今天和大家分享的是一篇 2020年4月发表在Clinical Cancer Research上的文章。文章很有创新的将深度学习模型、泛癌基因组学以及肿瘤免疫相结合,利用不同肿瘤基因组的层面之间的差异对肿瘤进行分型,并揭示其具有独特的免疫基因状况和对免疫疗法的反应。从目前的趋势来看,深度学习和机器学习在生物信息的领域的应用是越来越广泛。这篇文章就采用了深度学习分析基因组测序的数据,并加上了对免疫细胞浸润和肿瘤微环境的分析。
文章摘要
在这项研究中,作者开发了一个集成肿瘤突变负荷、微卫星DNA不稳定性和体细胞拷贝数改变于一体的泛癌深度机器学习模型,将癌症基因组图谱(TCGA)中29种癌症类型的8646个肿瘤分为4个不同的基因组群(genomic cluster,GC),并探究每个基因组群的免疫微环境的特点,以及每个基因组群与免疫治疗反应的关联。
从RNA-seq数据的分析揭示了每个基因组群相关的独特的免疫微环境。将该模型应用于来自两个免疫治疗临床队列的外显子组测序数据,证明了具有不同基因组簇的肿瘤患者在免疫治疗中有着显著不同反应。
最后,为了验证模型的效果,将该模型应用于来自两个黑色素瘤免疫治疗临床队列的肿瘤,结果表明不同基因组类型的黑色素瘤患者从免疫治疗中获得不同效果。处于不同基因组群(GC)的癌症类型对于免疫治疗的效果差别很大。
结果解读
一、构建深度学习模型
深度学习模型整合了三个主要的肿瘤基因组变异特征(据报道这三个特征与多种癌症类型的免疫检查点阻断反应相关)
1. MSI burden: 微卫星不稳定性burden值(表示为MSI变化的总数)
2. SCNA burden: 体细胞拷贝数改变burden值(表示为肿瘤与正常值样本基因组片段拷贝数比的总和)
3. mTMB: l来自于TCGA数据库的29种肿瘤类型 8646 个样本的非同义突变的总数值
深度学习模型由构建特定于模态的深度信念网络(DBN)和进行分成分析的自编码器(DAEs)组成,首先使用深度信念网络(DBN)提取每种基因组特征的高级表示,然后对组合表示执行深度自动编码器(DAEs)以进行分层。(Figure 1 a)
二、将肿瘤划分到基因组群(GC)中
通过构建好的深度学习模型将多种癌症归类到四个基因组群(GC)中。Figure 1 b表现了四个基因组群在MSI burden,SCNA burden,mTMB三个特征上的显著差异性。mTMB与传统TMB(非同义突变的总数)密切相关,而mTMB、MSI burden和SCNA burden彼此之间的相关性为弱至中等,这表明这3个基因组特征中的每一个都可能对肿瘤生物学产生显著影响。我们的模型将所有肿瘤样本分层为四个GC(图1b和表S2)。GC1和GC3似乎是基因稳定的,其特征在于低或中等的mTMB、MSI和SCNA burden(此后命名为GC1: TlowMlowSlow或GC3: TlowMlowSmid)。相反,GC2和GC4通常在基因上是不稳定的,在GC2中有高的mTMB、高的MSI burden和低的SCNA burden(此后命名为GC2:ThiMhiSlow),而在GC4中有高的MSI burden、高的SCNA burden和低的mTMB(此后命名为GC4:TlowMhiShi)。在四个GC类别中,GC2中的肿瘤具有最高的MSI burden(中位数= 722),最高的mTMB(中位数= 105),而GC4肿瘤具有最高的SCNA burden(中位数= 0.26)。GC1中的肿瘤具有最低的mTMB(中值= 4)和MSI burden(中值= 1),而GC3中的肿瘤最大的聚类(48.7%,n = 4,213个样本)在所有3个因素中处于中间水平。
Figure 1 c统计了每种肿瘤类型在每个GC中的病例数,方框中的颜色代表取对数后的p值,该测试将GC中给定癌症类型的样品分数与该GC中总的样品分数进行比较。红色表示富集,而绿色(负数)发散。如图所示,THCA, KIRP, KIRC, PCPG, THYM, and KICH, LGG这几种癌症在GC1中富集。在GC2中UCEC和COAD较多。STES、BLCA、HNSC、LUSC和LUAD在GC3多;OV和BRCA在GC4中的比例高。其余的癌症类型相对均匀地分布在所有的GCs中(figure 1c)。按照这种方法,作者将多种癌症的类型进行了一种新的划分。
三、通过免疫基因表达和肿瘤浸润淋巴细胞(TILs)分析不同GC的差异
为了研究GCs与肿瘤免疫环境之间的关系,作者接着对TCGA中的RNA-seq数据进行解析,以推断肿瘤免疫。对肿瘤微环境探究包含了了浸润性免疫细胞(CD8+ T细胞、B细胞、自然杀伤细胞和巨噬细胞)、70个免疫相关基因的表达,包括PD1/PD-L1 (PDCD1/CD274)和GSEA免疫途径分析
从结论中看,GC2肿瘤的特征在于高水平的TIL浸润、高表达的免疫基因和上调的免疫途径,提示活性或“热”免疫微环境。然而,GC4肿瘤显示低免疫细胞浸润和低水平的免疫基因表达,表明无活性或“冷”免疫微环境(figure2a,b)。这显示了不同基因族群的癌症在肿瘤微环境的组成中有着较大的差异。尤其是在免疫细胞的组成和活力上有着显著的区别。这也为下文患者有着不同的生存率和对免疫治疗有着不同的反应提供理论支撑。
四、不同的基因组群(GCs)与患者存活率相关
发现患有不同GCs肿瘤的患者表现出不同的总生存期(OS)。如图4a所示,肿瘤聚集成GC2(与热免疫微环境相关)的患者显示出比GC4患者(与冷免疫微环境相关)更长的总生存期,这突出了肿瘤免疫微环境的预后重要性,而与癌症类型无关。此外,GC1患者的总生存期比GC3患者长,表明SCNA burden对患者生存的负面影响。癌症特异性分析还揭示了在多种癌症类型中GCs与总生存率之间的关联,其趋势与泛癌分析相似。
五、不同的基因组群(GCs)与对免疫检查点封锁反应(ICB)有关
为了进一步研究由深度学习模型定义的GCs是否与来自ICB的临床效果相关,我们将我们的模型应用于TCGA中抗CTLA4治疗的转移性黑色素瘤的临床队列的WES数据。患者(n = 108)分为GC1 (n = 54)、GC2 (n = 10)、GC3 (n = 35)和GC4 (n = 9)。对42个肿瘤的GSEA分析表明,与GC1相比,GC3中与细胞周期、DNA修复和代谢相关的途径上调,而与GC3相比,GC1中与免疫相关的途径上调,这与来自TCGA切除的黑色素瘤的高质量数据的结果一致,表明我们的模型可以应用于来自小临床样本的数据。
总体而言,108名患者中有26名从抗CTLA4治疗中获得了临床益处(图5a)。特别令人感兴趣的是,患有GC4肿瘤的9名患者中没有一名获得临床益处(图5a),并且与患有其他GC肿瘤的患者相比,他们的总生存期明显更短(图5b)。重要的是,GC4肿瘤的特征是最高的SCNAburden ,据报道这与对ICB缺乏反应和低存活率有关。此外,将SCNA burden水平较低的患者(GC1和GC2)与SCNAs水平较高的患者(GC3和GC4)进行比较,表明患有GC3/GC4肿瘤的患者比患有GC1/GC2肿瘤的患者具有显著较低的应答率(p = 0.003)和较短的总生存期(p = 0.009)。
结论与分析
这项研究提供了有力的证据,证实了深度学习建模能够通过整合基因组,表观遗传学,转录组学,蛋白质组学等多种数据集,从而发现多因素输入数据的交叉模式相关性,从而描绘出肿瘤与宿主因素之间的相互作用。以剖析免疫治疗的主要耐药的分子机制,建立新的预测标记物,并精确选择能从免疫疗法中受益的患者。
转自生信人