转自Olink Proteomics
肺腺癌是最常见的肺癌类型,而肺癌是全世界癌症致死的主要原因,每年有超过100万人死于肺腺癌,目前一些大规模的基因组研究找到了EGFR和ALK等治疗靶点,对应的治疗方案尤其在高表达PDL1、高肿瘤突变负荷以及高基因表达谱(GEP)评分的患者中疗效显著,但对患者进行分层以分配合适的治疗方案仍然是一个急需解决的问题。
目前关于肺腺癌的大规模基因组研究主要基于欧洲血统的吸烟患者,但事实上,肺腺癌在欧洲和东亚两洲人种中有显著的差异。例如,东亚肺腺癌主要集中发生于女性非吸烟者,但是欧洲肺腺癌主要发生在男性吸烟者。EGFR突变在东亚肺腺癌患者中占40-60%,但在欧洲肺腺癌患者中只占7-10%。
这些研究都说明同一种疾病,都是肺腺癌,但是在不同人种中具有不同的特征,而这种特征可能指向不同的治疗靶点或者治疗方法,对于患者分层可能有重要的意义,但是因为缺少足够规模的东亚肺腺癌队列,这种血统异质性还没有被系统的研究过。
这篇文章收集到了213名新加坡籍中国肺腺癌患者样本并进行了全外显子测序和转录组测序,再加上由北京基因组研究所测序的92例中国患者的原始数据,得到了一个305人的大型东亚肺腺癌患者队列,然后下载并处理了249名欧洲患者的全外显子和转录组测序数据构成对照队列,(这些数据来自癌症基因组图谱TCGA数据库),随后进行了一系列基因组和转录组水平的比较,揭示了肺腺癌在各个层面的血统异质性下面我们来看一下他们得到的结果。
首先是两个队列的一个组成情况,能看到欧洲队列包含更多的吸烟者,但总的来说,两个队列在临床分期和年龄上没有非常明显的差异,除了欧洲队列吸烟者中女性比例比较高,最关键的是,不论在吸烟者还是非吸烟者中,东亚患者的肿瘤突变负荷,也就是TMB都显著低于欧洲患者。TMB是检测平均每1Mb长度的外显子上的突变个数,可以理解为肿瘤内存在的突变数,显然,TMB越高,突变数就越多,基因组越不稳定。
图1
图1A是两个队列的一个组成情况;图1B是对两个队列吸烟者与非吸烟者的一些临床特征进行比较和统计。
随后他们通过结合MutSigCV和20/20+分析方法在两个队列中识别出27个FDR低于0.1的驱动基因。能看到突变频率最高的是EGFR,TP53,和KRAS,除了这些已知的驱动突变,他们还找到了几个新的驱动基因:比如PARP4, EPRS, LYST等。
此外,EGFR突变的样本对应的TMB水平明显低于非EGFR突变样本,前面提到,东亚患者的EGFR突变率是非常高的,这可能是东亚队列TMB水平较低的因素之一。东亚队列中有更多EGFR和PARP4突变的患者,其他驱动基因突变频率都是低于欧洲患者。
整体来说,东亚患者和欧洲患者的驱动成分是不同的,东亚患者的驱动基因丰度较低,与它们较低的TMB特征一致。然后他们将东亚队列中的驱动基因与临床特征进行关联分析,如图E所示,EGFR突变在女性中富集,而TP53、KRAS、APC、EPRS、LYST和KEAP1突变在男性和吸烟者中富集;且TP53突变更常发生在年轻患者中,而RBM10突变更多发生在老年患者中。
图1
图1C是一个瀑布图,每一列表示一个样本,每一行是一个驱动基因,左侧是该基因在所有样本里的一个突变频率,右边四列分别是之前被报道过的,被CGC数据库收录的驱动基因,以及该基因是由MutSigCV还是20/20+分析识别出来的。下面是每个样本对应的临床特征;
图1D是比较两个队列的驱动基因,列出了吸烟者中和非吸烟者中两个队列发生频率具有显著差异的驱动基因;图1E为驱动基因与临床特征的关联分析图。
接下来他们使用Sequenza和GISTIC鉴定了两个队列的拷贝数变异情况,东亚队列显示出更低程度的染色体水平CNV,且这种趋势在缺失变异中更明显,两个队列都聚焦于驱动基因 EGFR, MYC and KRAS等扩增变异,以及基因FAT1, APC和STK11等缺失变异。
通过进一步比较两个队列吸烟者和非吸烟者的拷贝数变异指标,主要是倍性、基因组改变(衡量基因组不稳定指数的重要指标)和肿瘤基因组加倍的患者百分比。如图C所示,在吸烟者中,与欧洲患者相比,东亚患者表现出较低的非整倍体水平,且基因组加倍的肿瘤百分比较低,并显示更低的GII,而非吸烟者中具有相似的趋势,但差异不显著。这些结果表明,与欧洲队列相比,东亚队列的基因组改变较少,其基因组图谱的复杂性更低。
图2
图2A是染色体水平的拷贝数变异结果,黑框是队列中显著改变的染色体,绿点表示两个队列在该染色体上拷贝数变异频率存在显著差异;图2B为拷贝数变异的聚焦水平图,反应的是拷贝数变异在染色体上聚焦的位置情况,图中有的峰标记了相应的基因,代表这些基因被CGC数据库收录,且两个队列共有的显著聚焦的驱动基因;图2C为两个队列吸烟者和非吸烟者的各项拷贝数变异指标比较。
下面他们对队列的转录组亚群进行了划分,使用的是非监督聚类。NMF算法建议在这两个队列中,两组或三组作为最佳聚类方案。两组划分结果显示,两个队列中均包含一个终端呼吸单元(TRU)亚群和一个非TRU亚群,相关性分析显示两个队列的表达模式一致,生存曲线显示TRU亚群具有更好的存活率。
三组划分中,NMF成功在欧洲队列中还原了之前监督聚类法定义的三个亚群。在对两个队列的亚群进行相关性分析时,发现东亚队列的两个亚群与欧洲队列的TRU和PI亚群高度相似,于是相应地命名,值得注意的是,东亚队列中发现了一个新的亚群,因为它的大部分成员属于两组划分中的TRU簇,而且它的免疫浸润水平较高,所以将它命名为TRU-I。
通过比较这些亚群的各个特征,发现两组划分中两个队列的亚群特征是一致的,TRU亚群的特征更接近正常组织,包括增殖相关通路的下调、更低的TMB和更低的基因组不稳定性,说明肺腺癌在队列中的基本划分是保守的。
图3
图A和B的上半部分以及图C是两组划分结果;图A和B的下半部分以及图D是三组划分结果。
如图3E所示,三组划分中,东亚队列的TRU-I亚群与TRU亚群相比,TP53突变、GII、GD水平最低,T细胞、巨噬细胞、中性粒细胞、自然杀伤(NK)细胞和单核细胞的比例最高,在生存结果、TMB和驱动基因数目方面与TRU没有显著差异。欧洲队列中,在PI和PP亚群间观察到相似的炎症特征分离,其中PI亚群免疫免疫浸润水平更高。两个队列亚群的相关性分析结果显示,东亚队列的TRU-I和欧洲队列的PP亚群是各自特有的,TRU-I具有高免疫浸润以及低增殖性,而PP具有低免疫炎性和高增殖性。
图3G是东亚队列转录组亚群的表型分析图。最上面两行分别表示三组划分和两组划分的亚簇。下面的行是两个gsea富集基因集,展示了TRU与非TRU、TRU- i与TRU之间的差异表达基因的的归一化平均表达量,以及免疫相关特征值。红色和蓝色分别表示高值和低值。
结合前面的结果说明,炎症特征是队列分群中的一个重要坐标,可以对肺腺癌转录组亚群进行划分,这可能有助于识别适合免疫治疗的患者。
图4
图3E是两种划分方法下不同亚群的多种特征比较;图3F两个队列亚群的相关性分析结果;图3G是东亚队列转录组亚群的表型分析图。
此外,RTK/Ras通路是一条具有多个靶向基因(包括EGFR、KRAS、ALK和ERBB4)的重要通路。整体来看,欧洲队列中各个基因的突变频率是显著高于东亚队列的,比如吸烟者中的KRAS、ALK和ERBB4和非吸烟者中的MET。
除了EGFR突变无论在吸烟还是非吸烟者中都是东亚队列突变更加频繁。十个标志性致癌通路突变情况表明,在吸烟者中,欧洲队列所有通路上的突变频率都更高,而在非吸烟者中,则在TGFβ和NRF2通路具有显著增高的突变率。这些结果与欧洲队列较高的基因组改变是一致的。
由于不是所有的体细胞突变都会造成可用作治疗靶点的突变,于是他们将这些体细胞突变与OncoKB(一个肿瘤药物靶点相关基因组变异数据库)进行了比对。如图C所示,在所有可靶向的体细胞突变中,EGFR突变在两个队列中占主要地位。
除了靶向治疗,免疫治疗的出现也扩大了肺腺癌的治疗范围。GEP评分是免疫治疗反应的泛肿瘤预测指标,图D显示东亚队列中GEP评分显著高于欧洲队列,这表明东亚患者具有更高的接受ICB治疗的潜力。但是EGFR突变的患者倾向于有较低的GEP评分,相应对对ICB治疗的低反应,因此聚焦于两个队列中EGFR野生型WT患者。
如图E所示,东亚队列的TRU-I亚型始终显示较高的T细胞浸润,高GEP评分和PDL1表达和F图中潜在ICB治疗靶点的表达水平也是比较高的,这表明TRU-I表型是选择ICB治疗患者的一种潜在生物标志。
图4
图4A是RTK/Ras通路相关基因在两个队列中突变率的比较;图4B是十个标志性致癌通路突变情况的比较;图4C展示了两个队列的可靶向体细胞突变比例;图4D为GEP评分结果;
图4E不同组T细胞浸润的程度,GEP评分和PDL1表达水平;图4F为不同组中潜在ICB治疗靶点的表达水平。
为了系统地研究多维特征之间的相关性,他们整理出一份包含24个特征的列表,并且将这些特征分为四组:临床特征和驱动基因、分子特征以及ITH相关基因组特征。然后在东亚队列中得到了一个复杂的关系网络。如图5A所示,TMB和CNV相关的关联簇形成了这个关联网络的两个主轴。
之前有研究质疑大规模测序的价值,认为临床特征比基因组特征更能预测患者预后。所以作者为了说明基因组测序的价值,在这里使用单变量和多变量Cox模型,在东亚队列中评估了多层特征的预测能力。图B是多变量模型的feature importance结果,发现临床特征和驱动基因是最强的预测因子,其次是分子特征和ITH特征。
图C和D是使用c index ,一个预测准确性评估工具,单独评估这些特征组,可以看到类似的趋势。在各种预测评估中,ITH特征组表现最差,说明由单部分数据推断的异质性可能不足以预测患者生存结果。
根据多变量Cox模型的预测风险,他们将东亚患者分为三个预后不同的生存组,分别是S1、S2、S3,如图5e所示,观察到多个基因组特征出现明显分离。虽然临床特征是较强的预测因子,但基因组特征也可以很好地预测患者的生存,图F是早晚期患者的生存曲线图,补充结果中他们还做了一个没有临床特征的多变量模型,发现无论是早期还是晚期,仍然可以对患者进行分层,强调了基因组测序的预后预测的作用。
图5
图5A为东亚队列中各类特征形成的关系网络;图5B是多变量模型的feature importance结果;图5C和5D是使用c index 评估各特征组预测准确性的结果;图5e为不同组中各基因组特征的分布情况;图5F是早晚期患者的生存曲线图。
三、小结
总体而言,这篇文章通过大样本量的测序以及详尽的信息收集与关联分析,为我们提供了肺腺癌这一重要疾病的基因组图景,深入地对癌症的血统异质性进行了探究,并且为后续判断治疗与预后提供了重要的理论参考与候选标志物。但是该研究报告的是预测性分析,因研究者所分析的患者,并未接受免疫检查点抑制剂治疗,TRU-I型患者和TRU型患者的真实预后差异并不明确。将来能否用这一分型挑选患者,还需进一步验证。所以在实际临床攻关之前,我们仍然需要更多的研究来证明此研究的各项结果是否具备更重要的临床意义。
参考文献:
Chen J, Yang H, Teo ASM, Amer LB, Sherbaf FG, Tan CQ, Alvarez JJS, Lu B, Lim JQ, Takano A, Nahar R, Lee YY, Phua CZJ, Chua KP, Suteja L, Chen PJ, Chang MM, Koh TPT, Ong BH, Anantham D, Hsu AAL, Gogna A, Too CW, Aung ZW, Lee YF, Wang L, Lim TKH, Wilm A, Choi PS, Ng PY, Toh CK, Lim WT, Ma S, Lim B, Liu J, Tam WL, Skanderup AJ, Yeong JPS, Tan EH, Creasy CL, Tan DSW, Hillmer AM, Zhai W. Genomic landscape of lung adenocarcinoma in East Asians. Nat Genet. 2020 Feb;52(2):177-186. doi: 10.1038/s41588-019-0569-6. Epub 2020 Feb 3. PMID: 32015526.