Multi-omics Data Analyses Construct TME and Identify the Immune-Related Prognosis Signatures in Human LUAD7.032Mol Ther Nucleic Acids . 2020 Sep 4;21:860-873. doi: 10.1016/j.omtn.2020.07.024. Epub 2020 Jul 23.
Abstract
Lung cancer has been the focus of attention for many researchers in recent years for the leading contribution to cancer-related death worldwide, in which lung adenocarcinoma (LUAD) is the most common histological type. However, the potential mechanism behind LUAD initiation and progression remains unclear. Aiming to dissect the tumor microenvironment of LUAD and to discover more informative prognosis signatures, we investigated the immune-related differences in three types of genetic or epigenetic characteristics (expression status, somatic mutation, and DNA methylation) and considered the potential roles that these alterations have in the immune response and both the immune-related metabolic and neural systems by analyzing the multi-omics data from The Cancer Genome Atlas (TCGA) portal. Additionally, a four-step strategy based on lasso regression and Cox regression was used to construct the prognostic prediction model. For the prognostic predictions on the independent test set, the performance of the trained models (average concordance index [C-index] = 0.839) is satisfied, with average 1-year, 3-year, and 5-year areas under the curve (AUCs) equal to 0.796, 0.786, and 0.777. Finally, the overall model was constructed based on all samples, which comprised 27 variables and achieved a high degree of accuracy on the 1-year (AUC = 0.861), 3-year (AUC = 0.850), and 5-year (AUC = 0.916) survival predictions.
Keywords: DNA methylation; gene expression; lung adenocarcinoma; prognostic prediction; somatic mutation; tumor immune microenvironment.
每一个课题研究,都是为了发现一个现象,或者建立一种模型,达到一种预测目的,为了更好的看到重点,这次我们采取倒叙的方法,从“希望得到什么样的结果,而进行怎样的分析“的思路,看看这个研究中,作者做了哪些我们没有关注到或者哪些值得我们学习的关键分析方法。
肿瘤周围环境(environment around a tumor,TME)这个复杂的成分,我们首先想要知道的是其组成,因此,作者第一步,获得了一个称为“肿瘤纯度“评分,如下图一所示,与正常样本相比,肺腺癌(Lung adenocarcinoma,LUAD)样本的估计分数分布在显著较低的一侧(Mann-Whitney U检验,p < 0.05),基质评分和免疫评分(Mann-Whitney U检验,p < 0.05)。从TNM分期(肿瘤大小、淋巴结和远处转移)系统中,不同肿瘤大小的免疫评分有显著差异(Kruskal-Wallis检验,p < 0.05),而淋巴结和远处转移的免疫评分无显著差异(图1D-1F)。因此,这样的结果让作者推测,在LUAD中肿瘤浸润性免疫细胞与基质细胞相比具有更强的临床相关性。为了进行相关性验证,作者LUAD使用中位免疫评分将样本分为高免疫队列和低免疫队列,并使用CIBERSORT进一步鉴定细胞组成,以探索免疫细胞亚群和临床特征之间的关系。高免疫队列中记忆B细胞、CD8 T细胞和激活记忆的比例显著增加CD4 T细胞,M1巨噬细胞,静止的树突细胞,活化的肥大细胞,gamma delta T细胞和少部分浆细胞,M0巨噬细胞,和活化的树突细胞(Mann-Whitney)U检验,p < 0.05)。同时考虑免疫分数之间的关系和临床因素,发现患者不同免疫细胞贡献不同。LUAD中,单一类型的细胞成员对患者总体生存率的贡献很小。所以按照分析思路,细胞组分分析后,就是希望看到高低免疫组间表达谱的情况,数据从TCGA获得,符合log2(fold change) >1和FDR <0.05 (Student t test)标准的基因被认为存在差异表达,在高免疫队列中,分别有611个和164个基因上调和下调(如下图二A)。然后clusterProfiler功能富集,推断两部分基因的潜在功能。上调的基因发现在免疫相关的生物过程中富集,如T细胞激活和白细胞增殖,表明它们在增强肿瘤相关免疫中具有积极作用。转录表达看过后,基因层面最根本的原因作者也希望找出来,接着研究了高免疫组和低免疫组之间体细胞突变,包括单核苷酸变异(SNV)、单核苷酸多态性(SNP)、插入(INS)和删除(DEL)。数据从基于TCGA的 WES数据的R包maftools分析得到。如下图三,在高免疫组和低免疫组中,大多数基因组变异都是错义突变(约60%)。所以可以进行变异类型分类。无论SNV属于哪种类型,低免疫队列的突变数均明显高于高免疫队列。与高免疫队列相比,在低免疫队列中的样本有一个显著高水平的变异等位基因分数(VAFs)与被认为与肿瘤进展和较差预后相关的。之后对比两组基因的重叠情况,TP53, TTN和在两组中,MUC16都占据了前三位,它们之间存在相互作用,调节着LUAD中各种肿瘤相关的生物学过程,提示它们可能较少参与免疫浸润过程,但主要参与肿瘤进展。使用CoMEt算法研究了前25个最常突变基因的共同发生和排他突变。同时统计发现,有些基因的突变频率存在差异。不同的变异可能对其他基因的改变,甚至对患者的临床结果产生不同的影响。因此涉及到基因变异对于患者影响,作者接着希望看到表观组中,甲基化的临床差异。利用TCGA的Illumina Infinium 450k DNA甲基化数据,检测并比较不同免疫群组中DNA甲基化模式的影响。使用ChAMP检测了451个样本中缺失beta值的基因不超过20%的样本中差异甲基化探针(DMPs)。按照Dbeta >0.15和FDR <0.05的标准,共鉴定总数为5,764个免疫相关DMPs(如下图四)。与低免疫队列相比,高免疫队列检测到5647个(97.97%)高甲基化位点,涉及2386个基因,其中2221个位点位于1687个CpG岛上。高免疫队列整体上倾向于有低甲基化的位置,但低甲基化只发生在少数基因。在高免疫队列中的2386个高甲基化基因中,有63个上调,32个下调,从低甲基化基因组中,只有7个表达上调的DEGs被检测到。随后进行GO分析确定DMP相关基因功能,显示了它们在细胞分化和发育中的潜在作用。免疫水平并没有影响甲基化水平和表达水平之间的相关性,这一点得到了图4E中两组间相关系数高度一致的支持(r = 0.86, p < 0.05)。
两个群体之间的相关基因集,在负相关基因(图下图五B中的维恩图)和正相关基因(图5B中的维恩图)上有较大的重叠(图五A中的维恩图)。在低免疫组和高免疫组中,这些一致的正相关基因和负相关基因分别在免疫系统和细胞增殖中富集,而趋势不一致的基因则有一些不同的功能。正相关基因的探针更多的位于基因体和30 UTR区(p < 0.001,卡方检验),而负相关基因的探针偏向于启动子附近的区域,如转录起始位点(transcription start sites, TSSs)、50 UTR和第一个外显子,说明DNA甲基化对表达的影响存在区域差异。因此现在看来,作者已经获得了多个免疫相关的基因改变事实,那么他希望建立预后模型。采用了基于lasso回归和Cox比例风险回归的四步策略,分别研究了三种改变的联合效应和单独效应。合并所有改变的基因,使用单变量Cox比例风险模型,我们发现由337个DEGs、5个突变和217个DMPs组成的items对患者的总体生存时间具有显著的独立影响。由于显著变化量大,且它们之间可能存在相互作用,因此采用lasso回归模型对影响较小的变量进行剔除。在最优参数ln(lambda) = 3.7下(如下图六A),保留52个变量并建立多变量Cox比例风险回归模型(逐步法)。
将TCGA样本随机划分为一个训练独立测试集。每三分之一的样本(n = 142)轮流作为独立测试集,其余三分之二作为训练集,从而构造三对样本集。在结果中,训练模型的性能满足C-index = 0.839。然后根据所建立的模型计算每个样本的风险分,AUC值训练集1年、3年、5年预后预测分别达到0.871、0.875、0.928。Kaplan-Meier生存分析(图6G)显示,高风险队列的总生存期较低风险队列差(p < 0.001)。至此,分析就结束了。让我们返回来看看作者用了什么数据和方法。作者思路很简单,建立LUAD样本生存和临床的关系。这样就需要数据 – TCGA数据,另外逐步研究从分组,表达,基因,表观的不同层次,相互验证了高低危组的预后差异是有原因的,也就是免疫基因差异。进而,尝试降维免疫基因各个组学特征,建立临床预后模型。TCGA è 535个LUAD样本和59个正常对照样本的数据收集了561份LUAD WES数据样本和504份Illumina 450k DNA甲基化阵列的RNA-seq图谱。使用ESTIMATE算法构建TME,基于表达谱生成估计分数、基质分数和免疫分数。评估评分越低,基质细胞评分越低,免疫评分越低,分别表示肿瘤纯度越高,肿瘤组织中基质细胞和免疫细胞浸润水平越低。使用cibersorte软件对每个样本的浸润性免疫成分进行解剖。采用Mann-Whitney U检验比较高免疫和低免疫组间所有22个免疫细胞比例水平。确定高低组中差异基因表达数量,确定体细胞突变数量,对于DNA甲基化,采用R封装ChAMP对Illumi进行处理。筛选出缺失值大于20%的样本,使用451个样本,再分为高免疫组219个样本和低免疫组232个样本。其余缺失值用ChAMP的归算函数进行统计归算。使用limma package和limma package分别识别了不同的甲基化探针和区域Bumphunter算法。利用Pearson相关性研究探针信号与基因表达水平之间的相关性,从所有探针中随机选择与真DMP集相同数量的探针,构建100个随机集。临床因素包括TNM分期系统、综合分期和总生存率。在远处转移和淋巴结的免疫细胞成员的估计和分数的差异被评估使用Mann-Whitney U检验,而综合分期和肿瘤大小采用Kruskal-Wallis检验。此外,通过Kaplan-Meier生存分析(log-rank检验)研究了其对总生存期的贡献。LUAD患者预后用生存时间和生存状态评价,构建基于基因表达值、基因突变和甲基化探针信号的预后预测模型。研究LUAD中多重免疫依赖遗传或表观遗传改变的预后特征包括四个步骤:(1)单变量采用Cox比例风险回归,使用R包评估每个改变的个体效应,然后选择p值小于0.05的特征进行进一步分析;(2)采用lasso回归模型,使用R包glmnet过滤掉信息较少的变量; (3)采用逐步回归的多变量Cox比例风险回归得到基于遗传变量的预测模型,并使用R包生存生成所有样本的风险分数。在构建模型时,将TCGA数据集(n = 423)随机分成三等份,每部分轮流作为独立测试集,其余两部分作为训练集,得到最优变量组合。(4)基于训练模型,利用生存R包中包含的“predict”函数预测每个患者的风险评分。将风险评分与其他三个临床和人口统计学特征(分期、性别和年龄)结合,进一步引入多变量Cox比例风险回归模型,以评估总体效果。使用R包timeROC绘制ROC曲线,计算AUC。这样看下来,更清晰的明白为什么作者可以将这三种组学数据结合,以及结合后能做什么。TCGA数据库的挖掘可以从各个角度展开,当然预后模型中,除了基因也需要考虑协变量,结合人口统计学因素,综合考虑。所以期待下次,再为大家展开其他的TCGA挖掘新思路!转自生信人