整合分析的方法鉴定头颈鳞状细胞癌预后相关的Hub基因

Identification of Hub Genes Associated With Development of Head and Neck Squamous Cell Carcinoma by Integrated Bioinformatics Analysis

本研究使用TCGAGSE6631的头颈鳞癌(HNSCC)的表达谱,利用WGCNA和差异基因表达分析方法筛选出29个基因。使用clusterProfiler进行功能注释分析,发现富集到表皮发育和分化等生物学过程。此外,由21个节点构成的PPI中,使用CytoHubba识别了十个hub基因(S100A8S100A9IL1RNCSTAANXA1KRT4TGM3SCELPPLPSCA)。与正常组织相比,这些基因均显著下调。且生存分析发现HNSCC患者中CSTA的表达与OS有关。最后,通过HPA数据库验证的在HNSCCCSTA蛋白质水平下调。
材料方法
TCGAGEO数据库中的数据集
TCGA下载544NHSCC(文章笔误,应为HNSCC)样本,包括500个头颈癌和44个正常组织。从GEO下载GSE6631的表达谱,包含22个肿瘤样品和22个配对的正常样本。并使用WGCNA识别关键的共表达模块。使用limma包计算HNSCC与正常组织之间的差异表达基因(DEG)。筛选|logFC|1.0P.adj 0.05认为是DEG。使用RclusterProfiler包挖掘基因的功能,使用了STRING构建基因之间的PPI网络。使用R语言survival对患者的总体生存(OS)与基因之间的关系进行分析。使用HPA的免疫组化信息确定HNSCC与正常组织之间基因的蛋白质表达。

1. 流程图
结果
1. 加权基因共表达模块的构建
使用WGCNA软件包从TCGA-HNSCCGSE6631数据集构建了基因共表达网络。总共确定了TCGA数据集中的10个模块(图2A)和GSE6631中的9个模块(图3A)。绘制了模块特征关系的热图,表明TCGA-HNSCC中的棕色模块和GSE6631中的粉红色模块与正常组织的相关性最高(图2B3B)。

2. TCGA-HNSCC数据集中与临床信息相关的模块


3. GSE6631数据集中与临床信息相关的模块
2. DEG列表和共表达模块之间的基因鉴定
筛选|logFC| 1.0 P.adj <0.05认为是差异基因,在TCGA数据集中筛选3,728DEG(图4A),在GSE6631数据集中共有160DEG(图4B)。如图4C所示,分别在TCGA数据集的棕色模块和GSE6631的粉红色模块中发现了458123差异基因。进一步取交集总共筛选29个共同基因(图4C)。

4.差异基因与TCGAGSE6631数据集之间交集
3. 29个基因的功能富集分析
为了进一步了解与DEG列表和两个共表达模块共同的29个基因的潜在功能,使用clusterProfiler软件包进行基因富集分析。29个基因富集在表皮发育和表皮细胞分化等生物学过程(图5)。

5.棕色模块中基因的基因本体论(GO)富集分析。
4. PPI网络建设与hub基因鉴定
利用STRING数据库对基因进行PPI构建,其中包含21个节点和25(图6A)。使用CytoHubba插件的MCC算法从PPI网络中选择的hub基因(图6B)。

6.蛋白质-蛋白质相互作用(PPI)网络和候选hub基因
5. Hub基因的表达模式,预后价值和蛋白质表达的验证
通过CytoHubba插件筛选出十个hub基因(S100A8S100A9IL1RNCSTAANXA1KRT4TGM3SCELPPLPSCA),在TCGA数据库验证了hub基因的表达水平(图7)。与正常组织相比,HNSCC10hub基因均表现显著下调。

7.TCGA数据库验证HNSCC和正常组织中的十个hub基因的表达水平。
此外,对10hub基因进行OSDFS分析,发现在十个hub基因中,CSTA较低的HNSCC患者OS较差(P <0.05)(图8D)。而DFSHNSCC中十个基因均不显著(感觉这块放着没意义,纯属凑图)。CSTA表达水平的与患者DFS不相关(P 0.05而图中却为P=0.092)(图9D)。

图8. HNSCC患者中的10hub基因的OS分析

图9. 10个hub基因的DFS分析
此外,基于HPA数据库,与正常组织相比,肿瘤组织中CSTA基因的蛋白质水平显著降低(图10)。结果均证实CSTA的低表达与HNSCC患者的预后较差和总生存有关。

图10. HPA数据库中HNSCC和正常组织中CSTA基因的免疫组化

总而言之,该工作使用WGCNA与差异基因表达分析相结合的方法,发现生存相关基因(CSTA),其挖掘了hub基因HNSCC中预后预测的潜力。亮点在于两个数据集分别构建了两个WGCNA,筛选关键模块再结合分别筛选差异基因,共同筛选疾病预后因子。

转自生信人

分享