急性髓系白血病中SH3TC2-DT/SH3TC2基因对的高表达与FLT3突变和低生存率相关:一项完整的TCGA分析

High Expression of the SH3TC2-DT/SH3TC2 Gene Pair Associated With FLT3 Mutation and Poor Survival in Acute Myeloid Leukemia: An Integrated TCGA Analysis4.848Front Oncol . 2020 Jun 19;10:829. doi: 10.3389/fonc.2020.00829. eCollection 2020.

Abstract

Fms-like tyrosine kinase 3 (FLT3) mutation is one of the most common mutations in acute myeloid leukemia (AML). However, the effect of FLT3 mutation on survival is currently still controversial and the leukemogenic mechanisms are still under further investigation. The aim of our study is to identify differentially expressed genes (DEGs) in FLT3-mutant AML and to find crucial DEGs whose expression level is related to prognosis for further analysis. By mining the TCGA-LAML dataset, 619 differentially expressed lncRNAs (DElncRNAs) and 1,428 differentially expressed mRNAs (DEmRNAs) were identified between FLT3-mutant and FLT3-wildtype samples. Through weighted gene correlation network analysis (WGCNA) and the following Cox proportional hazards regression analysis, we constructed the prognostic risk models to identify the hub DElncRNAs and DEmRNAs associated with AML prognosis. The presence of both SH3TC2 divergent transcript (SH3TC2-DT) and SH3TC2 in respective prognostic risk models promotes us to further study the significance of this gene pair in AML. SH3TC2-DT and SH3TC2 were identified to be coordinately high expressed in FLT3-mutant AML samples. High expression of this gene pair was associated with poor survival. Using logistic regression analysis, we found that high SH3TC2-DT/SH3TC2 expression was associated with FLT3 mutation, high WBC count, and intermediate cytogenetic and molecular-genetic risk. AML with SH3TC2-DT/SH3TC2 high expression showed enrichment of transcripts associated with stemness, quiescence, and leukemogenesis. Our study suggests that the SH3TC2-DT/SH3TC2 gene pair may be a possible biomarker to further optimize AML prognosis and may function in stemness or quiescence of FLT3-mutant leukemic stem cells (LSCs).   

Keywords: FLT3 mutation; acute myeloid leukemia; divergent transcription; prognostic signature; the cancer genome atlas.

Fms样酪氨酸激酶3FLT3)突变是急性髓细胞性白血病(AML)中最常见的突变之一。但是,FLT3突变对生存的影响目前还没有被充分研究,并且其致白血病的机制仍在进一步研究中。那么该研究的目的就是识别FLT3突变AML中的差异表达基因(DEG),并找到其表达水平与预后相关的关键DEG,随后进行了一系列的分析。让我们一起来看一看作者都做了哪些研究吧~
.材料和方法
1.1数据收集与预处理
该研究的工作流程图如图1所示。从TCGA中下载了151种人类AML样本的数据,包括从IlluminaHiSeq_RNASeq平台获得的RNA测序数据和临床随访数据,包括年龄,生存时间等。

1.流程图
1.2 识别差异表达的lncRNAmRNA
TCGA-LAML数据集由43FLT3突变AML108FLT3野生型AML样本组成。使用R“ edgeR”来筛选FLT3突变体和FLT3野生型样本之间的差异表达基因(DEG)。使用FDR来矫正多重假设检验的q值。FC≥2以及矫正后的P<0.05具有统计学意义。根据人类基因组GRCh38.93 基因 ID转换为基因symbol。使用R“gplots”DElncRNADEmRNA绘制了火山图。

1.3 功能富集分析
使用R“ clusterProfiler”进行KEGG分析。使用GSEA来鉴定SH3TC2-DTSH3TC2高表达表型显著富集的基因集。

1.4加权基因共表达网络分析
使用RWGCNA来构建DEG的共表达模块。应用平均连锁法和pearson相关性对TCGA-LAML的样本进行聚类。基因ij之间的加权邻接矩阵定义为aij = | Cij | βaij:基因i和基因j之间的邻接关系,Cijpearson相关性,β:阈值= 4)。将邻接矩阵转换成拓扑重叠矩阵(TOM)。最后,利用DynamicTreeCut算法构建平均连锁层次聚类树状图,将表达相似的基因分为相同的模块。为了确定每个模块的临床意义,计算了基因意义(GS)来量化单个基因与临床特征的关联。模块重要性(MS)定义为模块特征基因(MEs)与基因表达谱之间的关联。然后将不同的MEs与临床特征相关联。

1.5 COX比例风险回归分析
通过单变量Cox比例风险回归评估每个黄色模块基因的预后意义。然后,应用多变量Cox回归分析从与预后相关的lncRNA构建一个3-lncRNA预后风险模型。对于mRNA来说,首先进行了最小绝对收缩和选择算子(LASSO)回归分析来选择mRNA。然后,应用多元Cox回归分析从选定的mRNA构建3-mRNA预后风险模型。根据风险评分中位数,将AML样本分为高风险和低风险组。通过Kaplan–Meier分析来鉴定风险模型的预后价值。通过R“ survivalROC”绘制ROC曲线来评估风险模型的预测准确性。通过多变量Cox回归分析的结果绘制了列线图以预测总体生存期(OS)。

1.6 SH3TC2-DT / SH3TC2基因对分析
对于单基因来说,应用t检验进行差异表达分析,应用Logistic回归来分析SH3TC2-DT / SH3TC2表达与临床特征之间的关联。为了预测SH3TC2的靶标,通过R“edgeR”分析了SH3TC2高表达组(n = 76)和SH3TC2低表达组(n = 75)之间的DEG。然后,通过DAVID“ Protein_Interactions”功能下的“ UCSC_TFBS”模块对DEGs列表进行注释。识别了DEG中显著富集的转录因子(TFs)并应用Cytoscape进行了可视化。

VizomeTCGA下载BeatAML数据集的RNA测序数据和临床随访数据,来验证FLT3-ITDFLT3-野生型AML之间SH3TC2-DT / SH3TC2的差异表达。同样地计算DEG。应用GSE37642-GPL570 AML数据集来验证SH3TC2表达水平与OS之间的关联。根据SH3TC2的中位表达值,将136AML样本分为两组。应用Kaplan–Meier曲线比较SH3TC2表达高低两组样本之间的OS。以上的这些统计检验和绘图都是通过RGraphPad Prism 7.0进行。

.结果展示
2.1 FLT3-突变型和FLT3-野生型AML之间的DEmRNADElncRNAs
作者应用R“ edgeR”FLT3野生型AMLFLT3突变AML之间进行差异表达分析,共识别到差异表达的619lncRNA113个上调和506个下调)和1,428mRNA194个上调和1,234个下调)(图2AB) 。KEGG分析显示DEmRNAs富集到与肿瘤发生密切相关的通路,如Wnt信号通路,PI3K-Akt信号通路和Ras信号通路(图2C),表明FLT3突变在AML发病机制中的可能作用。

2. FLT3突变体和FLT3野生型AML之间识别DElncRNADEmRNA
2.2 加权共表达网络的构建及与生存相关的模块的识别
应用R“ WGCNA”来构建DEG的共表达模块,并进一步确定与预后相关的模块。通过平均连锁和Pearson相关性的方法对TCGA-LAML样本进行聚类(图3A)。软阈值参数设置为β= 4(图3B)。

3. 层次聚类树和软阈值估计
合并具有高度相似性的模块后,通过平均连锁层次聚类(图4A)生成了总共27个模块,模块的基因数目大小从31327个不等。其中非共表达的基因被分组为灰色模块,并排除在进一步的分析中。随机选择的400DEGs的热图显示每个模块中共表达基因的高度拓扑重叠(图4B)。特征基因邻接热图显示了27个共表达模块之间的关系(图4C)。最后,确定了这些模块与临床特征之间的相关性(图4D)。

4. 共表达基因和模块与性状关系的网络构建
其中黄色模块与骨髓高白细胞(WBC)计数和胚细胞百分比相关,但与年龄,性别,突变计数,细胞遗传风险或分子遗传风险无关。并且该模块与较差的无病生存期(DFS)和OS有较高的关联,因此选择进行进一步的分析。

2.3黄色模块中每个基因的预后意义
通过单变量Cox比例风险回归,黄色模块中共有43个基因与OS显著相关。其中,12lncRNA31mRNA的高表达与OS较差相关(图5)。然后对这些lncRNAmRNA进行进一步的构建lncRNAmRNA预后风险模型。

5.基于黄色模块中基因表达的生存分析
2.4 lncRNA预后风险模型的建立
通过多变量Cox比例风险回归分析,作者建立了3-lncRNA预后风险模型来预测AML患者的OS,风险评分=0.006899×SH3TC2-DT的表达值)+0.00026×AF064858.1的表达值) +0.016446×AL133353.1的表达值)(表1)。其中SH3TC2-DT是与预后最相关的lncRNA(表1)。

1. lncRNA预后风险评分模型

根据风险评分的中位数,148例患者被分为高危(N = 74)和低危(N = 74)组(图6A–C)。高危患者的OS显著更低(图6D)。多因素Cox回归分析显示,年龄和lncRNA风险评分是影响OS的独立预后因素。lncRNA风险评分对生存的影响较大(图6E)。ROC曲线下的面积为0.664,表明该风险模型具有较高的预测价值(图6F)。绘制Nomogram以可视化多元Cox回归分析的结果(图6G)。此外,Kaplan–Meier曲线还证实这三个lncRNAOS的预测指标(图5A–C)。
6.lncRNACox比例风险回归分析
2.5 mRNA预后风险模型的建立
为了提高预后风险模型的预测准确性,首先进行了LASSO回归分析,并从黄色模块中具有预后价值的31mRNA中选择了四个mRNASH3TC2ENPP2TMEM273PRDM16)进行进一步分析。通过多变量Cox比例风险回归分析,确定了一个3-mRNA预后风险模型来预测AML病例中的OS,风险评分=0.000612×SH3TC2的表达值)+0.000507×ENPP2的表达值)+ 0.000277×TMEM273的表达值)(表2)。

2.mRNA预后风险评分模型
同样地,根据风险评分的中位数,148例患者被分为高危(N = 74)和低危(N = 74)组(图7A–C)。高危组患者的OS率显著更低(图7D)。多因素Cox回归分析显示,年龄,白细胞计数,分子风险和mRNA风险评分是影响OS的独立预后因素。mRNA风险评分对生存的影响更大(图7E)。ROC曲线下的面积为0.744,表明该风险模型具有较高的预测价值(图7F)。最后,绘制Nomogram以可视化多元Cox回归分析的结果(图7G)。此外,Kaplan–Meier曲线还证实了这三种mRNAOS的预测指标(图5D–F)。

7.mRNACox比例风险回归分析
2.6 SH3TC2-DT / SH3TC2基因对是AML的独立预后因素
在这一部分作者研究了SH3TC2-DTSH3TC2表达的临床意义。该研究表明,SH3TC2-DTSH3TC2FLT3突变AML样本中协同高表达(图8A9A),表明SH3TC2-DT可能在AML发病过程中调节SH3TC2表达。并且SH3TC2-DTSH3TC2的高表达与OS差有关(图8B9B)。两者的ROC曲线都显示出较高的预测值(图8C9C)。多变量Cox回归分析显示SH3TC2-DTSH3TC2表达均为独立的预后因素(图8D9D)。此外,应用逻辑回归分析将SH3TC2-DT / SH3TC2基因对与临床特征相关联,发现SH3TC2-DTSH3TC2的高表达均与较高的WBC计数,分子遗传风险以及FLT3突变有关。SH3TC2的高表达也与年龄有关(表34)。

3. SH3TC2-DT表达与临床特征之间的关联(logistic回归)

4. SH3TC2表达与临床特征之间的关联(logistic回归)
GSEA显示,伴有FLT3-ITDAML基因集在SH3TC2-DTSH3TC2高表达表型中富集(图8E9E)。

8. SH3TC2-DT表达与总生存率和基因集富集的关系

9. SH3TC2表达与总生存率和基因集富集的关
作者发现与干细胞特性或白血病发生相关的TF显著富集于SH3TC2高表达组和SH3TC2低表达组之间的DEG,表明这些TF 可能是AMLSH3TC2的潜在靶标(图10)。

10. TFs 调控网络
最后就是验证部分了,作者分析了BeatAML(Vizome)数据集,发现SH3TC2-DTSH3TC2FLT3突变AML中均显著高表达。此外, GSE37642-GPL570还显示,SH3TC2的高表达与AMLOS差有关。

好啦,这篇文章的内容就这么多啦~总结一下文章是总-分-总的模式:1、筛选FLT3野生型和突变型白血病差异因子,构建lncRNA、mRNA共表达网络,筛选预后marker;2、分别构建lncRNA、mRNA预后风险评分模型;3、筛选疾病关键的lncRNA-mRNA调控轴生存分析;4、外部数据验证。内容该有的都有,故事完整连贯,再加点其它分析(eg:浸润、免疫治疗等)就更完美了。

转自生信人

分享