转自生信人
最近小编关注到发表在Nature(IF=64.8)上的题为:Hallmarks of transcriptional intratumour heterogeneity across a thousand tumours 的文章,仔细观察这篇文章的图后小编发现有些似曾相识的感觉呢,而且其他”兄弟姐妹”均发表在CNS及其大子刊上,这让小编瞬间提起了兴趣。
肿瘤内异质性(ITH)是肿瘤学研究的一个主攻方向。细胞程序在文章中多以meta-programs、Programs出现,也有文章将其定义为模块(modules)。原理上看,主要应用NMF算法在单细胞数据集中识别出多个特征基因集,并对基因集通过功能注释进行命名;本质上来看,小编的理解是可以当做基因集异质性分析,只不过这个基因集由我们自己通过单细胞数据产生,并且可以体现细胞间状态的异质性。
每个肿瘤都包含不同的细胞状态,这是肿瘤异质性(ITH)的基础,也是癌症治疗的核心。下面,小编将以单一癌症到泛癌分析的顺序,解析几篇研究细胞异质性程序或涉及同种类型分析的文章,并着重讲解上述的这篇Nature,为大家详细梳理这类文章的发文思路,带大家了解细胞异质性程序研究的前世今生。
一. 单一癌症中的细胞异质性程序
小编所见的第一篇对于细胞异质性程序的研究是2017年发表在Cell(IF=64.5)上的一篇题为:Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumor Ecosystems in Head and Neck Cancer的文章。
2017 Cell HNSCC
头颈部鳞状细胞癌(HNSCC)是一种异质上皮性肿瘤,其转移性仍然是一个核心挑战,患者经常出现晚期淋巴结(LN)转移。在这篇文章中作者分析了原发性HNSCC肿瘤和匹配的LN的单细胞测序数据,以期更好的了解肿瘤内的异质性、侵袭性和转移性。
2017 Cell HNSCC
通过NMF分析,作者得到了多个异质性的细胞程序。作者的主要结论为:间质细胞和免疫细胞在患者中具有一致的表达程序。相反,恶性细胞在肿瘤内部和肿瘤之间表达与细胞周期、应激、缺氧、上皮分化和部分上皮间质转化(p-EMT)相关的特征是不同的(图1),表达p-EMT程序的细胞在空间上定位于原发肿瘤的前沿,并建立了p-EMT作为淋巴结转移、分级和不良病理特征的独立预测因子。
随着单细胞技术以及分析方法的逐渐成熟并走向大众,单细胞异质性细胞程序的研究依旧在多种分析方法中独树一帜。在2021年一篇题为:Spatially organized multicellular immune hubs in human colorectal cancer的研究依旧是发表在Cell期刊上。
2021 Cell CRC
由于对癌症的免疫反应是高度可变的,mismatch repair-deficient (MMRd) 肿瘤比mismatch repair-proficient(MMRp)肿瘤表现出更多的抗肿瘤免疫力。为了理解这些不同反应的规则,作者分析了来自 28 个 MMRp 和 34 个 MMRd 个体的结直肠肿瘤和邻近正常组织的单细胞数据并结合空间转录组,揭示了88个细胞亚群及其204个相关基因表达程序的跨肿瘤广泛转录和空间重塑。在肿瘤-管腔界面处发现了一个与组织损伤相关的髓样细胞吸引hub和肿瘤内富含 MMRd 的免疫hub,激活的T细胞与表达T细胞与吸引趋化因子的恶性细胞和髓样细胞一起。研究展示了一条发现多细胞相互作用网络的途径,这些网络可能是人类癌症免疫和致瘤过程的基础。
同样是单一癌症,不同的是,这篇文章作者通过cNMF(约束非负矩阵分解)进行细胞程序的寻找,该算法将标签信息(例如细胞类型)作为附加的硬约束,使得具有相同类标签信息的数据在新的低维空间中仍然保持一致。此外,作者对于每种细胞类型均计算了细胞特异性的程序,并且用其对细胞进行命名。这篇文章方法部分极其新颖,并没有用我们常用的分析软件包,都是作者自己的方法,强烈建议大家详细阅读一下。
二. 泛癌中的系统性分析
2020年,以色列魏茨曼科学研究所在Nature genetics(IF=30.8)的一项篇名为:Pan-cancer single-cell RNA-seq identifies recurring programs of cellular heterogeneity的研究可以说是开创了细胞程序泛癌研究的先河。作者通过22种癌症培养的198个癌细胞系单细胞表达谱,识别确定了12个在癌细胞中反复出现的表达程序。
scRNA-seq鉴定细胞系内表达的异质性及癌症类型分布
这些程序与多种生物过程有关,包括细胞周期、衰老、应激和干扰素反应、上皮-间质转化和蛋白质代谢(图3)。另外,10个基因表达的重复异质程序(RHP)反映了不同的生物学过程,且在很大程度上独立于细胞周期状态或被非周期细胞优先表达,并且作者发现多个RHP具有潜在的临床相关性。
RHP识别及注释
总的来说,作者描述了198个细胞系的细胞多样性景观,强调了特定的模型,重现了在人类肿瘤中观察到的异质性。对这些程序和模型系统的进一步研究将有助于更好地理解ITH,并可能有助于将这种理解转化为利用ITH的新治疗策略。PS:是不是感觉图都很像呀?
第二篇泛癌分析的文章于2022年同样发表在Nature Genetics(IF=30.8)上,题目为:Cancer cell states recur across tumor types and form specific interactions with the tumor microenvironment。当然啦,这篇文章我们公众号也进行过解读(影响因子40+的NG单细胞泛癌,真卷!!),并且在前些天Immungent大佬的泛癌思路梳理中也有讲解,我就不在此过多介绍啦。
复发性癌基因模块(modules)
总的来说,这篇文章整合了多个癌症类型的scRNA-seq数据,重点关注了泛癌恶性细胞的细胞状态,并对在多个癌症类型中反复出现的细胞状态与肿瘤微环境的关联进行了分析;空间转录组分析将肿瘤细胞的干扰素反应与肿瘤微环境中的T细胞和巨噬细胞联系起来。
铺垫了这么多,今天的重点来了,Hallmarks of transcriptional intratumour heterogeneity across a thousand tumours 这篇文章,第一个让我惊讶的便是在这篇文章的Data availability部分:This work relied on curation and integrative analysis of external studies and did not involve generation of new primary data. 什么?发Nature竟然是公共数据?这篇文章同样出自前文所提到的以色列魏茨曼科学研究所。接下来我会重点介绍一下这篇文章,为大家拆解出我们可以做的思路。
1.研究背景
最近几十项研究已经开始通过单细胞RNA测序来描述肿瘤内异质性(ITH),但每项研究通常只描述了少数肿瘤。于是作者整理、注释和整合了来自77个不同研究的数据,以揭示覆盖24种肿瘤类型的1163个肿瘤样本的转录ITH模式。在恶性细胞中,作者确定了41个共识元程序(meta-programs,MPs),每个元程序由数十个基因组成,这些基因在许多肿瘤中的细胞亚群中上调。这些元程序涵盖了不同的细胞过程,包括泛型(例如,细胞周期和应激)和谱系特异性模式,作者将这些模式映射到转录组ITH的11个特征。
2.主要结果
2.1 数据收集及定义MPs
为了系统地定义癌症MPs(图1a),作者整理了77项单细胞研究的数据,包括1456个样本,涵盖24种癌症类型和2591545个细胞。并且使用两种互补的方法来注释每个数据集中的细胞。首先,将细胞划分为38种不同的细胞类型,同时确保典型细胞类型Marker的表达;第二步,从基因表达谱中推断拷贝数改变(CNAs),并将细胞划分为恶性或非恶性(图1b)。
图1 从scRNA-seq数据集中定义MPs
接下来,作者通过其整理的的3CA(Curated Cancer Cell Atlas)项目对恶性细胞中的ITH进行了综合表征(图1a)。由于作者的主要兴趣是单个肿瘤内的变异性(而不是肿瘤之间的变异性),因此作者没有整合数据集,而是定义了每种肿瘤内部不同的表达程序,然后在所有研究的肿瘤之间比较产生的ITH程序(相关基因集)。对于每个肿瘤,我们使用非负矩阵分解(NMF)来产生在其恶性细胞中不同的ITH程序,每个程序由其得分最高的50个基因定义。
图2 MPs及其功能注释
通过聚类,作者将在每个肿瘤恶性细胞中得到的程序聚类为41个程序cluster(图2),这些聚类涵盖了所有稳健NMF程序的66%,表明大多数ITH表达反映了MPs可能描述的复发模式。作者接下来根据每个MPs功能富集情况对MPs进行注释,并手动将具有相关功能的MPs划分为11个MP家族(图2a)。其中:MP1–4与细胞周期相关;MP5-7为应激或缺氧;MP12-16为间质状态(MES)或EMT样状态。这些MPs均与核心细胞过程和代谢有关。
2.2 MPs的特异性
作者将每种MP在每种癌症类型中的频率分为不存在、低、中、高以及高并显著富集(图3a)。
7个MPs在大多数癌症类型中以中高频率存在,并被标记为普遍(图3b)。这些包括细胞周期、应激、缺氧、干扰素反应、EMT III和MYC靶点的MPs。相比之下,仅在一种或两种癌症类型中发现的13种MPs被标记为环境特异。其余的MPs(21/41)在3到12种癌症类型中检测到,并标记为共享。
图3 MP的特异性
为了验证MPs及其环境特异性,作者分析了卵巢癌、皮肤鳞状细胞癌和胶质母细胞瘤的空间转录组学(Visium)数据。通过scRNA-seq得到的这些癌症类型中定义的29种MPs中的28种,它们的环境特异性在Visium和scRNA-seq之间高度一致。
2.3 非恶性TME细胞类型的MPs
3CA项目包含了38种TME细胞的1,199,312个非恶性细胞。6种最常见的细胞类型(成纤维细胞、巨噬细胞、T细胞、B细胞、上皮细胞和内皮细胞)分别由来自200多个肿瘤的50,000多个细胞代表(图4a)。作者通过同样的方法,得到了非恶性细胞的MPs,结果表明:大多数恶性MPs与上皮细胞的非恶性MPs相似,而与其他细胞类型的MPs不同(图4b、c),这表明在恶性细胞中看到的大部分异质性已经存在于起源细胞中。
图4 非恶性MPs及其与恶性MPs的相似性
2.4 推断细胞类型间的关联
TME细胞类型通过分泌因子、物理相互作用或对营养和氧气的竞争相互影响。为了揭示这种影响,作者研究了不同细胞类型的MPs之间的共现现象,发现了许多正负相关关系(图5a)。同时,利用空间蛋白质组学数据,作者还验证了几种细胞类型的周期细胞共定位于“高增殖”龛的预测(图5b)。进一步通过免疫组化验证了HEVs与补体表达的成纤维细胞在HNSCC中的共定位(图5c)。
图5 不同细胞类型MPs之间的相关性
以上就是这篇文章大体的结果与结论啦,作者也在Discussion部分谦虚的分析了其工作的不足及展望。本文章的分析中一些ITH模式可能被忽略了。首先,罕见模式表达的样本在其样本队列中可能未得到采样。其次,作者的方法有效地检测了大规模的表达程序,但可能只遗漏了少数基因的程序,或者遗漏了主要反映蛋白质或代谢物而非mRNA的基因的程序。第三,通过整个汇编的MP共现来推断TME交互的方法强调了一般性交互而非特定于上下游的交互。
说在最后
写了这么多,全篇看来,肿瘤内异质性(ITH)的研究一直是热点方向,通过对单细胞数据的挖掘使我们对肿瘤的发展机制、环境特异性的理解越发清晰,进而有助于临床的诊疗。通过对这么多篇文章的综合理解,小编觉得所谓的细胞程序无异于是一个行使特定功能的基因集合,只不过这个基因集合不同于我们以前所分析的通路,程序所代表的是细胞状态。由于目前测序技术的限制,我们测序所得到的数据均是某类细胞在某个时间点的状态信息,通过异质性程序对于细胞状态的剖析无疑是一个较好的选择。
对于这篇23年的Nature,其用公共数据发Nature着实是给我上了一课,并且作者的资源共享态度也非常值得我们敬重。作者将其整理好的数据以及识别到的meta程序制作为一个数据库(https://www.weizmann.ac.il/sites/3CA/);作者识别meta程序的脚本代码可以在GitHub(https://github.com/tiroshlab/3ca)下载得到,可以说是将发文方法送到了你我嘴边儿。
最后,基于这篇Nature的结果,我们不妨大胆的融会贯通一下,助力我们发文。
首先,我们可以应用作者的算法做一些作者所没有涉及到的癌症以及非肿瘤的单细胞数据集上,产生自己的细胞程序进行分析讲故事。这便是补充作者在Discussion部分所提出的第一条不足。
第二种思路,在第一种思路的基础上加入多组学分析,例如蛋白质组、表观基因组数据,小编在多篇推文中一直在强调,未来的纯生信一定是多组学分析的天下,这便是补充了作者所提出的第二条不足。
第三种思路,亦直接应用作者总结好的meta程序在其他数据集中深入分析(当做泛癌特定基因集分析来做),寻找不同癌症间的异同,再加入药敏或者预后分析,使文章丰富完整。
癌症是一个高度异质的疾病,肿瘤内异质性将会是永远的热点。通过细胞程序对肿瘤内异质性的解析我相信不止于此,小编在此也仅仅是抛转引玉啦,希望本期推文可以给大家带来一些思路上的参考,下一篇CNS会不会是屏幕前的你呢?