Integrative genomic study of Chinese clear cell renal cell carcinoma reveals features associated with thrombus11.878
Nat Commun. 2020; 11: 739.
Published online 2020 Feb 6. doi: 10.1038/s41467-020-14601-9
Abstract
Clear cell renal cell carcinoma (ccRCC) is a heterogeneous disease with features that vary by ethnicity. A systematic characterization of the genomic landscape of Chinese ccRCC is lacking, and features of ccRCC associated with tumor thrombus (ccRCC-TT) remain poorly understood. Here, we applied whole-exome sequencing on 110 normal-tumor pairs and 42 normal-tumor-thrombus triples, and transcriptome sequencing on 61 tumor-normal pairs and 30 primary-thrombus pairs from 152 Chinese patients with ccRCC. Our analysis reveals that a mutational signature associated with aristolochic acid (AA) exposure is widespread in Chinese ccRCC. Tumors from patients with ccRCC-TT show a higher mutational burden and genomic instability; in addition, mutations in BAP1 and SETD2 are highly enriched in patients with ccRCC-TT. Moreover, patients with/without TT show distinct molecular characteristics. We reported the integrative genomic sequencing of Chinese ccRCC and identified the features associated with tumor thrombus, which may facilitate ccRCC diagnosis, prognosis and treatment.
Subject terms: Cancer genomics, Renal cell carcinoma
研究用到的152例ccRCC患者来自北京大学第三医院和中国人民解放军总医院,每个样本都是正常-肿瘤配对的,其中42名患者伴有血栓。接下来,就是对样本的全外显子组双端测序;获得的读段利用BWA比对到参考基因组hg19(下载自UCSC);然后用SAMtools 0.1.19进行排序合并;再使用Picard将读段固定配对、标记以及去重;最后利用GATK 2.1–8校准所有插入和缺失(INDELs)、碱基质量,SNV检测用到的是GATK中的MuTect模块(正常样本的SNV作为对照组),InDels检测用的是Unified Genotyper模块,以下过滤条件被用来确保检测的准确性:(1)覆盖突变位点的reads数不应少于10个,其中至少三个reads包含突变;(2)正常样本至少10x覆盖,并且最多一个read包含突变;(3)突变等位基因最大映射质量得分的最小值设为20;(4)突变等位基因频率至少为8%;(5)删除dbSNP 135中列出的突变,除非COSMIC有记录;(6)剔除NHLBI外显子组测序项目报告的突变。最后,Snpeff 3.0完成对SNVs和InDels的注释。首先配对样本的BAM文件输入Sequenza R v.2.1.1,考虑倍性和细胞结构来建模CNs,然后将处理结果输入GISTIC2,来识别显著扩增/缺失的区域。作者利用sigProfiler方法(基于NMF,即非负矩阵分解)从96种突变亚型的突变谱中识别了潜在的MSs,然后使用余弦相似度距离来衡量这些MSs与COSMIC中MSs的相似性。Siganazyler方法用于结果的交叉验证,mSigAct方法用于评估患者是否具有AA(马兜铃酸,一种致癌物)突变特征。MutSigCV用于识别SMGs(显著突变基因),保留Benjamin-Hochberg校正值 q<0.05的基因。此外,满足以下任一条件的定义为潜在驱动突变:(1)COSMIC数据库中与癌症相关的突变;(2)近期大群体的ccRCC测序研究识别出的基因突变;(3) KEGG癌症通路中的基因发生的突变。为了比较ccRCC基因的突变率,作者从TCGA下载了417 ccRCC患者的体细胞突变数据和临床信息。最后,该研究从基因水平评估了五个已知的ccRCC相关信号通路(TP53/细胞周期通路,PI3K-mTOR通路,SWI/SNF通路,组蛋白/染色质修饰通路和HIF-1信号通路)中的体细胞突变。对于测序得到的RNA reads,作者利用HISAT2比对到hg19参考基因组,用HTseq进行定量,Cuffquant和Cuffnorm 用于量化基因表达丰度并计算每个样本的FPKM值,DESeq2用来将counts值进行归一化并识别差异表达基因(p<0.05且|FC|>2)。接下来,就是将98个样本的表达数据转为非负矩阵并用非负矩阵分解法进行聚类,对TCGA数据也做了相同的聚类。为了分析BAP1和SETD2突变与存活之间的相关性,作者将TCGA中的417个患者样本分为基因突变型和野生型。利用Kaplan-Meier比较了特定基因状态下患者的存活情况,并采用对数秩检验进行显著性评估。此外,clusterProfiler用来对基因表达数据做GSEA(基因集富集分析),以分析两种生物学状态下的基因是否存在显著差异。文中的所有统计分析都是通过R完成的,Wilcoxon秩和检验与Fisher精确检验用来分析中国ccRCC和TCGA ccRCC队列间的基因组差异,无监督聚类用以识别基因表达亚型。152名ccRCC患者的突变图谱如图1.a所示,包含12,012个SNVs和522个InDels。中国和TCGA两个群体的突变率接近,在中国患者群体中,有6个显著突变基因(SMGs)被识别出来,其中VHL, PBRM1, BAP1, TP53和KDM5C在之前的研究中已被定义为SMGs。突变频率排秩较高的基因依次为VHL, PBRM1, CSMD3, BAP1, SETD2和KDM5C,这些基因在两个数据集中的突变频率也相差无几,但是基因CSMD3和TMPRSS13在中国群体中的突变频率要显著高于TCGA队列(图1.c)。GISTIC分析识别出的SCNAs与TCGA群体一致,最常见的染色体臂突变为3p缺失和5q扩增,图1.a还列出了其他突变。
两个ccRCC患者群体的突变谱最大的差异是T > A转换(图2.a),NMF算法从外显子测序数据检测到了三个主要的突变特征,MS2和MS3分别对应COSMIC中的SBS5和SBS40。MS1对应SBS22,只在中国群体中观察到(约占比26.3%),SBS22已知与AA(马兜铃酸)暴露有关,然后作者根据AA特征是否显著(>13%)将患者分为两组,发现AA组的突变负荷以及CSMD3基因的突变频率均显著高于non-AA组,此外,突变负荷与AA比例呈正相关(图2.d-f)。
中国ccRCC与ccRCC-TT患者的不同突变模式根据是否伴有血栓,研究将152名中国患者分为ccRCC与ccRCC-TT两组。总的来说,ccRCC-TT患者的突变负荷较高,BAP1, CSMD3, TP53, SETD2, PTEN, PCLO, PIK3CA和VHL的突变频率也更高(图3.a-b),BAP1是已知的ccRCC肿瘤抑制因子,SETD2的失活则会促进肾癌的分支进化,其在胃癌细胞系中的过表达显著抑制细胞增殖、迁移和侵袭。在中国ccRCC患者和TCGA群体中,BAP1和SETD2的突变都是相互排斥的,而且生存分析的结果表明BAP1或SETD2突变的总体生存率(OS)更低。此外,ccRCC-TT患者在癌症相关通路中有更多的突变,尤其是染色质修饰通路。种种结果表明,具有BAP1或SETD2突变的ccRCC患者更容易发生血栓。

图3. ccRCC与ccRCC-TT患者的不同突变模式
作者探讨了ccRCC-TT队列中原发性肿瘤与血栓之间的克隆关系,首先分析了非同义突变的区域分布,在原发性肿瘤和血栓中均发生的定义为共享突变,否则为特异性突变。样本的特异性突变的百分比变化很大,表明原发性肿瘤与血栓之间的基因组异质性程度不同(图4.b)。另外,两个队列的突变谱相似(图4.c)。接下来,作者比较了原发性ccRCC肿瘤和正常肾组织的转录组,在肿瘤样本中识别出了2334个上调基因和2176个下调基因。通过GSEA,观察到了免疫应答和癌症相关通路的激活。比较原发性肿瘤和血栓的基因表达谱发现,血栓中有25个基因显著上调,包括MMP9,SBSN,XPNPEP2和IL13RA2(图4.e),这些基因主要与细胞迁移和侵袭有关。在血栓显著富集的15条通路中,大部分与免疫反应有关(图4.f)。
使用无监督聚类方法,作者在中国患者中识别出了四个基因表达簇,样本是根据TT状态而非肿瘤分期或AA特征进行聚类的,表明TT患者具有独特的转录组谱(图5.a)。簇m1和m2是两种TT亚型,m1簇表现为自噬通路的上调和CSMD3突变频率的升高,并且富集了较多的ARID1A和PIK3CA突变;m2簇中一些与DNA修复相关的基因上调,BAP1突变也更频繁,且富集了较多的SETD2突变;簇m3中CDKN2A的缺失和MDM4的扩增频率较高。此外,m1和m2均富集了与血管生成和上皮间充质转换(EMT)过程相关的基因集(图5.b)。接下来,基于细胞类型特异性表达标志物,作者根据转录组数据推断了肿瘤微环境的组成。发现簇m1和m2表现出较高的CAFs丰度,但T细胞和B细胞较少(图5.b),我CIBERSOR的分析结果也表明了在簇m1和m2的肿瘤微环境中T细胞和B细胞较少。
总结一下,该研究发现在中国ccRCC患者中CSMD3和TMPRSS13的突变率高于TCGA群体,拷贝数变异频率也较高;还观察到AA特征与中国ccRCC群体的突变负荷呈正相关;在ccRCC-TT患者中,BAP1与SETD2的突变频率明显升高,而且二者的突变是互斥的,可能因为它们均参与染色质重塑。