Mol Oncol . 2020 Apr;14(4):896-913. doi: 10.1002/1878-0261.12639. Epub 2020 Jan 29.

Abstract

Hepatocellular carcinoma (HCC) is a disease with unique management complexity because it displays high heterogeneity of molecular phenotypes. We herein aimed to characterize the molecular features of HCC by the development of a classification system that was based on the gene expression profile of metabolic genes. Integrative analysis was performed with a metadata set featuring 371 and 231 HCC human samples from the Cancer Genome Atlas and the International Cancer Genome Consortium, respectively. All samples were linked with clinical information. RNA sequencing data of 2752 previously characterized metabolism-related genes were used for non-negative matrix factorization clustering, and three subclasses of HCC (C1, C2, and C3) were identified. We then analyzed the metadata set for metabolic signatures, prognostic value, transcriptome features, immune infiltration, clinical characteristics, and drug sensitivity of subclasses, and compared the resulting subclasses with previously published classifications. Subclass C1 displayed high metabolic activity, low α-fetoprotein (AFP) expression, and good prognosis. Subclass C2 was associated with low metabolic activities and displayed high expression of immune checkpoint genes, demonstrating drug sensitivity toward cytotoxic T-lymphocyte-associated protein-4 inhibitors and the receptor tyrosine kinase inhibitor cabozantinib. Subclass C3 displayed intermediate metabolic activity, high AFP expression level, and bad prognosis. Finally, a 90-gene classifier was generated to enable HCC classification. This study establishes a new HCC classification based on the gene expression profiles of metabolic genes, thereby furthering the understanding of the genetic diversity of human HCC.

Keywords: classification; hepatocellular carcinoma; immune signatures; metabolic genes.

一．研究背景

肝细胞癌（HCC）是世界上最常见的恶性肿瘤之一，是癌症相关死亡的第二大原因，其表现出高异质性的分子表型。目前，尽管HCC有新的治疗和诊断方法，但其预后仍然不佳，所以阐明HCC多样性的潜在分子机制，开发靶向疗法是至关重要的。因此今天介绍一篇通过建立一个基于代谢基因表达谱的分类系统来识别HCC的分子特征的文章。

二．材料及方法

1. 数据：研究从ICGC、TCGA、GEO、GDSC等多个数据库获取了HCC样本的表达数据，临床数据，突变数据，拷贝数数据，药物敏感性数据及新抗原的预测。

2. HCC亚型的识别：作者首先获取先前发表的2752个代谢相关的基因列表，接着保留中位绝对偏差(MAD)值大于0.5且COX回归分析与预后显著相关的基因，使用非负矩阵分解（NMF）对样本进行聚类。然后使用 Class mapping (SubMap) 分析评估亚型相关性，使用T-SNE进行验证。

3. GSVA:作者使用GSVA对代谢及预后相关基因进行分析，并且使用R包limma进行了差异分析。

4. 免疫浸润的评估：使用Microenvironment cell population‐counter (MCP‐counter)方法评估免疫细胞及非免疫的基质细胞的丰度。也使用单样本GSEA（ssGSEA）计算免疫浸润。

5. HCC亚型特征分析：对亚型的差异表达基因（DGEs)进行通路及功能富集分析，并与其他研究得到亚型的结果进行比较。

6. 分类器的生成和性能验证：选择每个亚型中前30的差异基因进行预测模型的构建，生成基因分类器。然后使用NTP算法对基因特征重复进行亚类预测，并与之前基于NMF算法的分类结果进行比较。

7. 免疫治疗和靶向治疗对每个亚类的益处的预测：利用免疫疗法治疗的黑色素瘤患者的现有数据，通过评估文章亚型和黑色素瘤患者之间基因表达谱的相似性，来间接预测免疫疗法对亚型的疗效。此外，通过对GDSC数据的分析，研究了两种HCC靶向药物的药物敏感性。

三．研究的主要内容及结果

1. NMF识别HCC的三个亚型

在文章的第一部分，作者首先将不同平台的样本整合，经过消除批次效应后，结合使用中位绝对偏差及COX回归分析筛选得到的候选代谢预后相关基因采用NMF方法进行亚型的识别，流程如图1A所示，NMF中k值的选取如图1B所示，最终得到三个亚型C1,C2,C3。为了对分型结果进行验证，作者采用t-SNE进行降维，结果发现亚型结果与二维t-SNE结果（图1C）具有一致性,此外，作者也对一套GEO的HCC数据进行独立分析来对结果进行验证。接下来作者对亚型进行生存分析，在各组数据中都观察到不同亚型之间具有生存差异（图1D）。

图1 使用NMF识别HCC亚型

2. HCC 亚型的转录组

在这一部分，为了对亚型进行更好的刻画，作者对亚型进行了差异表达分析，识别出了在三个亚型中的亚型特异的差异基因 2830个，C1，C2,C3特异的基因分别为509，2042，279个。接下来作者对差异表达基因进行GO富集分析，研究发现C1,C2特异基因富集到不同的生物学过程，其中C1主要富集到代谢相关的过程，C2主要富集到细胞外基质相关的过程，而C3富集到一些发育相关的过程。此外，作者还使用GSVA对亚型进行了通路富集分析，结果发现C1主要富集到氨基酸代谢相关的通路，C2主要富集到EMC相关的通路，而C3主要富集到其他代谢相关的通路，如荷尔蒙蛋白多糖的代谢。

3. HCC亚型与代谢相关特征的相关性

在文章的这一部分，作者考虑到分类是根据代谢相关基因进行的，所以进一步探究不同亚类是否具有不同的代谢特征。首先，利用GSVA对115个代谢过程进行量化。然后进行差异分析，寻找亚型特异性代谢特征，将其定义为对应亚型中GSVA评分较高的特征。结果发现，只有C1和C3有特异性代谢特征，分别为39和4个，而C2则无特异性代谢特征（图2A）。接着为了进一步研究亚类的特征，作者选择了七个HCC相关的关键特征并使用GSVA算法进行量化。结果发现C1的PP和PV特征明显高于C2和C3, C2的间质相关特征表达更高，与富集分析的结果一致。与C2和C3相比，C1的干性相关得分明显较低，而分化相关得分较高，这与C1的临床特征相对应。此外，C1和C3在Wnt激活相关信号上的得分都明显高于C2，这可能与它们存在高频率的CTNNB1突变有关（图2B）。然后使用ESTIMATE算法评估免疫及基质得分，分析发现三组间免疫评分差异有统计学意义，其中C2的免疫评分高于C1和C3（图2C）。此外，C3的间质评分低于C1和C2（图2D)。

图2 代谢和进展相关特征与HCC亚型之间的关系

4. 肝癌亚型与免疫浸润的关系

在这一部分作者在各亚型间免疫评分存在显著差异的情况下，对其免疫浸润情况进行了研究，以刻画其免疫景观。使用MCP‐counter和ssGSEA算法计算了16种免疫相关细胞类型的丰度，热图如图3A。可以观察到C2与其他两个亚型之间具有显著差异，C2有11类免疫细胞的丰度显著更高，此外，C2对Treg细胞和Th17细胞的水平也较低。值得注意的是，C2中基质细胞(内皮细胞和成纤维细胞)数量显著增加，这与之前C2富集基质相关特征的结果一致(图3B)。作者进一步研究了亚型和15个潜在靶向免疫检查点基因表达之间的关系，这些基因是根据临床试验中目前的药物抑制剂或已被批准用于特定癌症类型的药物选择的，结果发现C2比C1和C3高表达了14个免疫检查点基因(图3C)。

图3 三个亚型的免疫特征

5. TCGA和GEO数据集中HCC亚类与临床特征的相关性

在这一部分作者，探索了TCGA（图4A）及GEO（图4B）队列中分类的亚型临床病理变量的关系。结果在两个数据集中发现不同的临床病理变量与不同的亚型相关。同时，作者也比较了其他HCC分型与临床变量的关系。

图4 TCGA及GEO队列中HCC亚型的临床特征

6. HCC亚类与突变、新抗原和拷贝数改变的相关性

由于已证明肿瘤基因组景观与抗肿瘤免疫相关。因此，为了研究不同HCC亚型的体细胞突变频率是否存在差异，观察HCC类间的突变模式，作者对TCGA和ICGC数据库的体细胞突变数据进行了分析。结果表明，C1和C2表现出不同的突变特征。其中C1突变TP53的频率明显低于C2和C3，分别为16%和3%。而C2突变CTNNB1的频率明显低于C1和C3。图5A显示了高突变频率或在关键通路中的基因。接着，作者将分类与总体突变的数量和预测的新抗原相关联。可以发现突变数有显著性差异，C2的中位突变数分别小于C1和C3，而在两两比较中，新抗原的数量没有统计学差异。分析拷贝数改变发现C1患者比C3表现出更低的扩增和缺失，C1和C2没有统计学差异（图5C）。先前研究表明，11q13染色体上的HCC驱动基因扩增的可能性更高，这些基因可能在HCC的治疗中发挥重要作用。因此，接下来研究了HCC分类与11q13染色体驱动基因扩增的相关性(图5D)，观察到C2表现出更高的扩增趋势。

图5 HCC亚型与突变、新抗原和拷贝数改变的相关性

7. 90‐基因分类器和性能验证

在这一部分作者进行基因分类器的构建，为了建立一个临床使用的分类器，选择信息最丰富的亚型相关特征基因是有必要的。综合考虑了准确性和临床应用潜力之后，作者选择每个亚型中最显著的前30个基因，建立亚型分类器。因此，生成了一个90基因分类器，如图6A所示。在GEO数据中应用这个分类器的结果如图6B所示。结果发现，C1亚类的一致性为76.35%，C2亚类的一致性为85.56%，C3亚类的一致性为70.59%，表明90基因特征可重复识别HCC的亚型。

图6 预测分类器的识别及推测的靶向治疗和免疫治疗反应

8. 肝细胞癌免疫治疗和靶向治疗的敏感性

HCC亚型中不同的免疫浸润模式和免疫检查点基因表达水平表明，免疫治疗对HCC免疫应答的可能性有待进一步研究。作者使用subclass mapping将HCC的三种亚型与先前发表的包括47名接受PD-1或者CTLA‐4免疫检查点抑制的黑色素瘤患者进行比较，观察到C2与CTLA‐4应答组显著相关（图6C），表明C2组的患者对抗CTLA4治疗更有希望产生应答。此外，作者还用同样的方法探索了HCC亚类与靶向药物(sorafenib 和 cabozantinib)敏感性之间的关系(图6D)，结果发现C2与cabozantinib敏感组有关，C1与cabozantinib耐药组有关，同时C2也与sorafenib耐药组有关。

到这里这篇文章的主要内容就介绍完了，总结一下，研究收集多个数据平台、多组学的数据，从代谢的角度采用NMF对肝细胞癌进行了分类，做了简单的预后差异分析。再结合差异分析，富集分析，突变方法对得到的HCC亚型进行了详细的刻画，最重要的还构建了一个可以区分亚型的代谢分类器（厉害了，没见过），研究的角度流程及用到的方法值得收藏和研究。

下一篇：最新缺氧+免疫方案思路

上一篇：全转录组测序

肝细胞癌的代谢相关分子分型