这篇文章提出了一种新的概念——干细胞指数,来寻找肿瘤中影响细胞转移分化的靶标。该文章于2019年4月发表在Cell(36.216)
Machine Learning Identifies StemnessFeatures Associated with Oncogenic Dedifferentiation
肿瘤的进展过程通常伴随着癌细胞分化表型的逐渐丧失以及干细胞样特征的获得。而表现为未分化的原发肿瘤更有可能发生癌细胞转移,从而导致疾病的进一步发展以及预后不良。基因组、表观基因组、转录组和蛋白质组特征与癌细胞去分化和获得干细胞特征相关。细胞免疫微环境,基于此,文章中作者提出了一种新的衡量肿瘤发展情况的概念——干细胞指数(stemness indices),并利用TCGA数据评估了利用干细胞指数分析肿瘤情况的可靠性。
数据和方法:
1)从PCBC(ProgenitorCell Biology Consortium)、Roadmap、ENCODE数据库中收集不同分化程度的正常细胞表达数据、甲基化数据。
2)对收集到的数据使用OCLR机器学习方法对其中干细胞和不同分化水平细胞的数据进行训练,提取细胞表达和甲基化特征,构建细胞干性模型。
3)基于之前获得的干性模型,对TCGA中的数据计算干细胞指数mRNAsi和mDNAsi。其中mRNAsi是基于表达数据计算的指数,mDNAsi是基于甲基化数据计算的指数。指数范围在0到1之间,约接近于1说明细胞分化程度越低,干细胞特征越强。
4)联合mRNAsi和mDNAsi与TCGA肿瘤样本的临床信息、基因表达、DNA甲基化等特征,分析干细胞指数mRNAsi与mDNAsi与肿瘤进展情况和生物学过程的相关性。
5)使用CIBERSORT和ESTIMATE对TCGA肿瘤样本分析免疫细胞丰度,分析免疫微环境与癌细胞干性的关系。
图一A 文章分析流程
结果:
1)从各种公开渠道获取的不同分化程度的正常细胞表达数据、甲基化数据,使用OCLR机器学习方法对数据进行训练,构建细胞干性模型,并用验证集展示了计算后不同种类细胞干细胞指数的大小。从图一B可以看到,干细胞样本在基于表达得到的mRNAsi与基于甲基化得到的mDNAsi都得到了比分化细胞更高的分数。
TCGA肿瘤类型根据组织学和细胞来源分为干细胞样(SC)、淋巴造血(Ly-Hem)、腺癌鳞状细胞癌(Squamous Cell carcinoma, Squamous)、神经元谱系(Neuronal lineage, Neuronal)、肉瘤(Sarcomas, Sar)、肾肿瘤(Kidney tumor, Kidney),不属于上述任何一种(Misc)。对TCGA样本计算mRNAsi和mDNAsi(图一C),可以看到与其他肿瘤类型相比,生殖细胞肿瘤、基底乳腺癌和淋巴癌便显出更高度的去分化情况。
图一B 验证集验证干细胞指数
图一C 干细胞指数分析TCGA数据集
2)作者使用GSEA,对模型中的细胞干性相关基因集与16个已有的癌症或干细胞数据集进行比较。这些数据集包含超过2564个不同基因,但俩俩数据集的交集不超过134个基因,而干细胞数据集中基因均富集于mRNAsi的基因集。mRNAsi与大多数肿瘤的已发表的泛癌EMT标志物mRNA表达存在显著相关性。
图二肿瘤细胞干性与生物学过程分析
3)作者在三种低分化肿瘤(乳腺癌、急性髓性白血病、神经胶质瘤)中进行了临床、分子亚型与干细胞指数相关性分析。在三种肿瘤中,乳腺癌的mRNAsi与临床及分子特征显著相关(图三A)。其中bascal亚型的mRNAsi得分最高,这与该亚型在临床上表现的强侵袭性一致,ILC亚型mRNAsi较低,在临床上预后表现也较好。在急性髓性白血病中,mRNAsi与分子亚型及FAB分型存在关联(图三B)。FAB分型中M0、M1和M2三种分化程度较低的亚型有着较高的mRNAsi,而M3成熟早幼粒细胞亚型的mRNAsi较低。在神经胶质瘤中,mDNAsi与病理分级和分子亚型之间有很强的相关性(图三C)。在预后较差、高侵袭性的GBM中mDNAsi最高,在GBM中侵袭性更强的classical和mesenchymalm亚型DNAsi也更高。
图三三种低分化肿瘤细胞临床、分子亚型与干细胞指数相关性分析
4)作者根据肿瘤类型,把干细胞指数对所有TCGA样本进行富集分析,寻找干细胞指数与突变、分子和临床特征的关联。在大部分TCGA肿瘤中,干细胞指数与肿瘤组织学和病理分级之间存在正相关关系(图四E)。mRNAsi与BRCA (IDC和ILC)、CESC、LIHC、PAAD、UCEC的相关性最大。
在肺腺癌中,mDNAsi与已知的分子亚型、SETD2和TP53体细胞突变以及吸烟状况之间存在很强的关联(图四A)。吸烟者的mDNAsi比非吸烟者高,预示着吸烟可能会激活肺腺癌细胞的细胞干性。在头颈鳞状细胞癌中,mDNAsi与NSD1突变、E-cadherin蛋白表达、miR-200-3p以及分子亚型相关(图四B)。在肝细胞癌中,mRNAsi与肿瘤病理学分期相关联,且与miR-200家族、PD-L1负相关(图四C)。在肾上腺皮质癌中,mRNAsi与分子亚型、临床分期以及PRKAR1A和TP53基因突变之间存在关联,且mRNAsi与肾上腺分化评分呈正相关(图四D)。
图四干细胞指数与TCGA肿瘤部分分子及临床性状关联分析
5)作者收集了MET500数据集中500个转移肿瘤样本进行干细胞指数分析,并于TCGA原发癌样本进行了比较(图五A)。在大部分癌症中,转移癌样本的miRNAsi都是高于原发癌样本的。在胶质瘤中,初次复发的样本中mDNAsi比原发癌更高(图5B)。胶质瘤细胞的显著去分化会导致胶质瘤复发,同时胶质瘤复发往往与预后不良和耐药性有关。
作者使用单细胞测序的转录组数据集,利用mRNAsi探查肿瘤异质性。与乳腺癌细胞相比,单个胶质瘤细胞具有更高的致癌去分化变异(图五C)。转移瘤的单细胞在乳腺癌中具有较高的干细胞指数(图5D)。在转移样本中也发现在TCGA原发肿瘤中观察到的EMT信号和干细胞指数的负相关关系(图五E)。
图五干细胞指数与肿瘤转移状态和瘤内异质性的相关性分析
6)作者使用CIBERSORT和ESTIMATE对TCGA肿瘤样本分析免疫细胞丰度,分析免疫微环境与癌细胞干性的关系。可以看到干细胞指数与白细胞分数和PD-L1表达相关(图6A)。mDNAsi与胶质瘤和肺鳞癌、头颈鳞状细胞癌、膀胱尿路上皮癌等鳞状癌的PD-L1呈显著负相关。mRNAsi与胶质瘤、前列腺癌、肝癌和子宫肉瘤的PD-L1呈显著负相关。在此基础上,作者分析了不同肿瘤亚型的干细胞指数与免疫微环境变量之间的关系(图六B)。干细胞指数和PD-L1表达与白细胞分数之间相互关联。在头颈鳞状细胞癌中,mesenchymal亚型具有最高的PD-L1表达水平、最显著的白细胞分数和最低的mDNAsi。
图六干细胞指数与免疫微环境相关性分析
7)作者使用CMap寻找可能针对细胞干性的候选治疗化合物。有五种化合物在十多种癌症类型中显著富集,并且已报道具有抑制细胞干性相关肿瘤发生的作用图七)。根据该分析结果,作者认为吡咯烷酮和普霉素可能存在抑制肺腺癌细胞干性获得的功能。
图七干细胞指数与药物作用分析
这篇文章根据癌症发展过程提出了新的概念——干细胞指数,并结合了TCGA等多个癌症数据库数据验证了干细胞指数与癌症的临床和分子分型、生物学过程、癌症转移和瘤内异质性、免疫微环境相关,为癌症研究提供了新的思路和方法。