基于公开数据病理组学研究竟然发到nature大刊!

近日,美国哈佛医学院、麻省理工学院等研究团队合作在Nature Communications上发表题为“组织病理学图像预测结直肠癌患者的多组学畸变和预后 Histopathology images predict multi-omics aberrations and prognoses in colorectal cancer patients   Nature Communications” [IF=17.694] Q/1]的文章。

该研究提出一个多组学多队列评估(MOMA)系统,其是一个可表征的机器学习框架,用于大规模分析数字病理图像。研究团队通过MOMA识别和表征了CRC患者的组织病理学的模式、多组学和临床特征之间的关系,成功预测出患者的总生存期(OS)、无进展生存期(PFS)和拷贝数变化(CNA),并鉴定出可预测基因表达谱、微卫星不稳定状态(MSI)和临床可操作的基因改变等的病理组织学模式。该机器学习方法提供了临床上可操作的预测,能够为CRC患者的治疗提供参考。组织病理学图像预测结直肠癌患者的多组学畸变和预后.

         

一、背景

结直肠癌(CRC)是常见癌症死亡原因,组织病理学评估对于诊断结直肠癌 (CRC) 是必不可少的。显微镜下对病变组织进行手动评估不能可靠地告知患者的预后或对治疗选择至关重要的基因组变异,为了应对这些挑战,作者开发了多组学多队列评估(MOMA)平台,这是一种可解释的机器学习方法,用于系统地识别和解释三个大型患者队列中患者的组织学模式,多组学和临床特征之间的关系。作者成功预测了早期结直肠癌患者的预后,并使用弱监督预测框架在识别癌症样本的基因组学和蛋白质组学状态方面取得了最先进的性能。将高分辨率数字病理学图像与临床上可操作的多组学畸变联系起来,确定患者生存结果的可解释病理预测因子。进一步在多个大型患者队列中验证的框架,并证明在不同人群和不同图像采集方法中的普遍性。MOMA成功预测了CRC患者的总生存期、无病生存期和拷贝数改变。

         

二、结果

1.多组学多队列评估 (MOMA) 机器学习框架

MOMA使用组织病理学图像预测癌症基因组学、蛋白质组学和患者预后的临床可操作变异(图1A,B),将全玻片病理学图像与感兴趣的临床和分子谱连接起来(图1C, D),进一步量化了每个微环境成分在每个预测任务中的重要性(图1C,D);MOMA应用于包括TCGA、PLCO队列以及NHS和HPFS队列等多个队列验证其可推广性。   


图1 多组学多队列评估(MOMA)机器学习框架概述

         

2.MOMA 预测患者的总生存期和无进展生存期

MOMA在TCGA保留测试集中成功识别了I-II期结直肠癌患者患者的总体生存结果(图2A)在两个独立的外部队列中进一步验证;


将模型可视化,并表明密集的腺癌细胞簇高度表明总体生存结果较差(图2D, 2E)。样本进行分层的分析显示,两个癌症组的预测性能相似;


基于定量概念的分析表明,癌细胞区域、肿瘤相关基质以及癌细胞与癌区平滑肌细胞的相互作用与不利的总生存期有关(图1D)


图2:MOMA使用数字组织病理学图像预测I期和II期结直肠癌患者的总体生存结果,并在多个独立队列中进行验证。

         

MOMA可靠地预测了同一组患者的无进展生存结果。在TCGA坚持测试集中,进一步证明了模型在NHS-HPFS队列中的适用性(图3A,3B)。


将数据集分为结肠癌vs直肠癌组,成功地确定了两组的预后差异;


模型可视化显示,肿瘤相关基质和腺癌细胞群的形态模式高度关联无进展生存期(图3C, D);与总体生存预测相比,无进展生存模型更与浸润淋巴细胞和与细胞外粘蛋白相关的区域


图3:定量组织病理学成像预测I期和II期结直肠癌患者的无进展生存结果

         

MOMA来预测III期结直肠癌患者的总生存期和无进展生存期;MOMA在TCGA保留测试集中成功识别了患者的总体生存结果(图4A),在两个独立的外部队列中成功验证模型;


在模型可视化中,表明密集的腺癌细胞簇高度表明总体生存结果更差(图4D, E)。同样,MOMA成功地预测了患者的无进展生存结果(图4A),结果在NHS-HPFS的独立外部队列中得到了验证(图2B;P = 5.0)。


模型可视化显示,密集的腺癌细胞簇高度表明更差的无进展结果(图3D, E)。


基于定量概念的分析表明,肿瘤相关基质区域以及癌细胞与癌区平滑肌细胞的相互作用与不利的无进展生存期有关。

         

图4 MOMA使用数字组织病理学图像预测III期结直肠癌患者的总体生存结果,并在多个独立队列中进行验证


图5:MOMA使用数字组织病理学图像预测III期结直肠癌患者的无进展生存结果,并在独立患者队列中进行验证

         

3.MOMA 使用组织病理学图像改进了对 MSI 状态的预测

高水平微卫星不稳定性(MSI)状态已被确定为预测免疫检查点抑制剂反应的生物标志物;MOMA来预测每个患者的MSI状态,TCGA保持测试集的AUROC为0.88±0.06(图6A),在NHS-HPFS数据集中,AUROC为0.76±0.04(图6B)。

模型可视化表明,预测的MSI状态与淋巴细胞,基质,粘膜和癌症区域有关(图6C, D)。


图6:MOMA预测结直肠癌患者的MSI状态

         

4.MOMA预测癌症发展中关键基因的拷贝数改变(CNA)和表达水平

进一步研究MOMA预测拷贝数改变(CNA),全基因组加倍和BECN1基因过表达方面的性能;


结果表明MOMA预测了FHIT和许多其他肿瘤抑制基因中的拷贝数改变(CAN),与PC-CHiP法相比其预测性能得到了大幅改善(图7A-C);


除外组织病理学-CNA关联外,MOMA还进一步预测了NOL4L、HM13、FOXS1、WWOX和CCER1等遗传缺失(图7D-F)。


图7:与当前最先进的方法相比,MOMA提供了更优的拷贝数预测效果,并预测了之前研究中没有识别的额外拷贝数变异

         

5.MOMA 识别与 BRAF 突变状态相关的组织病理学模式

原癌基因和肿瘤抑制基因的基因组变异是结直肠癌发展的核心;

MOMA系统地预测BRAF,HIF1A和PIK3CA的突变状态,识别与BRAF突变相关的形态学信号,类似的方法也确定了组织病理学与HIF1A和PIK3CA突变状态之间的关系。

         

6.MOMA 使用组织病理学模式预测共识分子亚型

共识分子亚型(CMS)是结直肠癌常用的分子亚型系统,可解决基于基因表达的分类中的不一致,并反映肿瘤特征的生物学差异;


使用MOMA对主要CMS亚型进行分类,MOMA在不参与模型开发过程的保留测试集中实现了0.66±0.04的AUROC;


结肠癌vs直肠癌组的分层分析时,CMS预测的性能略有改善,MOMA表明癌症相关基质和粘液区域高度指示CMS2和CMS4。

         

7.预测关键临床和多组学概况的区域比较

通过作者的可解释机器学习框架确定的患者预后结果和分子谱的区域,提供了对每个区域在预测这些感兴趣的结果方面的相对重要性的定量测量。


例如,表明肿瘤,基质和粘液区域的组织学模式与总生存期和无病生存期的预测相关,而具有淋巴细胞和粘液的区域为预测CIMP高状态提供了信号,可视化了每个预测任务的重要区域。

         

三、结论

这篇论文表明MOMA有可能提供临床上可操作的预测,可以改善结肠直肠癌患者的治疗。


这项研究使用结直肠癌的组织病理学图像设计了MOMA框架,用于分子表征和临床预后预测,并在两个独立的患者队列中进一步验证了模型。该平台成功地预测了病人的结果,并确定了可以为治疗决策提供信息的病理学模式。作者证明了他们的方法在多个病人群体和数字化方法中的通用性。该研究结果表明,机器学习方法可以预测患者的生存结果和临床上重要的分子概况。该方法可以从全幻灯片病理图像中自动识别信息区域,而无需详细的区域级注释。此外,该研究采用了视觉变压器,与标准深度学习方法相比,性能显著提高。此外,多队列验证表明,分析高分辨率数字病理学图像的数据驱动方法具有可推广性。总之,该研究为可扩展的组织病理学图像分析提供了一个强大而灵活的机器学习框架,可供研究人员和临床医生免费使用。

         

四、小结

计算病理领域迅速发展,从组织成分、细胞类型等组织学层面迅速深入到分子病理、预后、治疗响应预测层面。由此可见病理具有极其广阔的应用前景,并可促成对TME、TIME更深入的理解,为基础研究引领新的方向。


目前,病理组学发文量极少,极具发文价值!此外,对于临床医生来说,获取病理学资源轻而易举,只需要申请使用手术获得的H&E染色片子,通过机器/人工的方法将图像进行切割(图像分割),再通过“高通量测序”(计算机),提取海量的定量特征;就可以随行发挥,将其利用到极致,涉及疾病诊断、分期分级及疗效预测等多个方向!具有极高的转化医学价值。


当然,利用病理组学实现高分的文章发表、申请国自然及省级课题也不在话下。除了简单的单一病理组学分析以外,与几种组学结合,亦有1+1≥2的效果!组学、空间转录组、光片显微镜、非线性多模态成像等先进检测与成像技术亦开始应用于计算病理学,为研究与应用赋予了新的潜能。


病理组学应用计算机方法解决临床具体问题,具有临床可及性高、成本低廉、高效性与可重复性,具有广阔的应用前景。

分享