Leading with leaders
铁死亡相关基因signature构建预测肝癌总体生存
最近发表在
International Journal of Biological Sciences
杂志(
IF:4.858
),文章主要讲的是基于铁死亡相关基因构建癌症的预后
signature。这样构建预后风险signature的经典方式文章一直有在接收出版,公众号也推过无数,思路清晰简单完整,无外乎是:1、找一个感兴趣的基因集;2、降维筛选预后因子;3、再次降维构建预后风险signature;4、效能验证。
铁死亡相关基因
signature构建
预测
肝癌
总体生存
一、摘要
肝癌是一种高度异质性癌症,铁死亡(Ferroptosis)是一种铁依赖的细胞死亡形式(可通过索拉菲尼(
sorafenib
)诱导铁死亡)。铁死亡相关基因的在肝癌中的预后价值还有待进一步研究。本研究基于
TCGA
数据集,筛选预后相关的差异因子,通过
Lasso-cox
回归模型构建了一个包含
10
基因癌症预后
signature
,将肝癌划分了高低风险组,高风险组
OS
显著的低于低风险组(
p<0.001
)。此外
,
研究使用
ICGC
肝癌数据集用于预后
signature
的验证,同样得到了相似的结果(
p=0.001
)。
ROC
曲线分析也验证了
signature
的预后效能。
流程图:
图1:流程图
二、数据及方法
数据集
分析数据集:
TCGA-LIHC
371
个肝癌患者
RNA-seq
数据和临床信息
(https://portal.gdc.cancer. gov/repository);
验证数据集:
ICGC (LIRI-JP)
231
肝癌样本
RNA-seq
数据和临床信息
(https://dcc.icgc. org/projects/LIRI-JP) ;
TCGA和ICGC数据集临床信息见表
1
。
表1:训练集和验证集临床信息表
预后铁死亡相关基因
signature
的构建和验证
首先,筛选
TCGA
肝癌和癌旁间的差异基因
DEGs
(
R
包:
limma
,
p-adj<0.05
);其次,使用单因素
cox
回归分析筛选肝癌预后相关的铁死亡因子( 通过
Benjamini & Hochberg (BH)
校正
p
值 )。然后与
DEGs
取交集得到构建
signature
的候选基因,使用
String
数据库基于这些候选基因构建
PPI
蛋白互作网络,研究候选因子的互作关系;最后,使用
lasso
回归分析进一步筛选肝癌预后因子(
R
包:
glmnet
),根据每个候选因子的表达和
lasso
回归系数计算患者风险评分
:score= esum
(each gene
’
s expression
×
corresponding coefficient)
。根据得分中位值将肝癌样本划分为高风险和低风险组,使用
R
包:
stats
进行主成分分析(
PCA
),使用
R
包:
Rtsnet-SNE
进行分组的可视化。每个候选基因的生存分析表达最佳切点由
R
包:
survminer
执行,
ROC
曲线分析则使用
R
包:
survivalROC
来评估
signature
的预测能力。
功能富集分析
对高低风险组差异表达基因DEGs进行
GO
功能、
KEGG
通路富集分析(
R
包:
clusterProfiler
);
16
种免疫细胞浸润得分和
13
条免疫相关通路活性得分则由单样本基因集富集分析(
ssGSEA
,
R
包:
gsva
)执行。
统计分析
所有的统计分析都基于R 软件
(Version 3.5.3)
或者
SPSS (Version 23.0)
三、结果解析
1. TCGA
识别铁死亡相关差异基因
81.7%的铁死亡相关基因在癌症和正常中表现出差异,其中
27
个与肝癌预后相关(图
2a
)。要注意的是,
HMOX1
在癌症中显著上调,但是表现出良好的预后,其它基因高表达与更差预后相关,因此剔除该基因,使用剩下的
26
个铁死亡因子进行后续分析(图
2b-c
)。基于这些候选因子构建
PPI
互作网络
,GPX4, G6PD
和
NQO1
为核心基因(图
2d
)
,
铁死亡预后因子相关性分析(图
2e
)。
图2. TCGA识别候选的铁死亡相关基因
二、
TCGA
数据集构建预后模型
在
Lasso
、
cox
回归分析基于
TCGA 26
个铁死亡候选因子,最终构建了包含
10
个基因的预后
signature
(公式比较复杂这里就不放了,想看的话可以联系客服要文献哦)
,
根据中位数将样本划分高风险(
182
)和低风险(
183
)组(图
3a
)。高低风险样本在临床指标中的分布见表
2
。
PCA
和
t-SNE
分析结果表明
signature
能很好的将两组样本区分(图
3b-c
)
,
高风险患者死亡风险显著高于低风险患者,
OS
生存期也更差(图
3e,p<0.001
)。
ROC
曲线评估风险评分的
OS
预测效能
AUC
值(
1
年
0.8
,
2
年
0.69
,
3
年
0.668
)。
图3. TCGA 10-genes signature模型预后分析
三、预后
signature ICGC
数据集验证
基于ICGA数据集对
signature
包含的
10
个基因做生存分析,除
CARS
外都与更差的
OS
相关。
ICGC
队列的患者也按照与
TCGA
队列相同的公式计算的中值分为高低风险组,测试由
TCGA
队列构建的模型的鲁棒性。得到了与
TCGA
相似的结果,
ICGC
高低风险样本在临床指标中的分布见表
2
。
PCA
和
t-SNE
分析结果也表明
signature
能很好的将两组样本区分(图
4b-c
)
,
高风险患者较低风险患者相比生存期更短(图
4e,p=0.001
)。
ROC
曲线评估风险评分的
OS
预测效能
AUC
值(
1
、
2
、
3
年分别为
0.68
、
0.69
、
0.718
)。
图
4.ICGC 10-genes signature
模型验证
表2:TCGA和ICGC队列高低风险组临床指标特征
四、
10-genes signature
模型独立预后价值
单因素、多因素cox回归分析确定
risk score
是肝癌
OS
独立的预后指标。单因素
cox
回归分析发现
risk score
在训练和验证数据集中都是肝癌显著相关的
OS
预后因子(图
5a-b,TCGA p<0.001,ICGC p=0.006
)。校正其他混杂因素后,在多变量
Cox
回归分析中,
risk score
仍被证明是
OS
的独立预测因子(图
5a-b,TCGA p<0.001,ICGC p=0.005
)。
图
5.TCGA
和
ICGC
数据集
risk score
为肝癌独立预后因子验证
五、
TCGA
和
ICGC
数据集功能分析
为了
阐明
risk score
相关的生物学功能和通路,对高低风险组的差异基因进行了
GO
、
KEGG
富集分析。不出所料,
DEGs
富集到了铁相关的几种生物学过程(图
6a.c
)。有趣的是
TCGA
的
DEGs
也显著的富集到了许多与免疫相关的生物学过程(图
6a
)
,ICGC
队列也得到了相似的结果(图
6c
)。
KEGG
通路分析表明两个数据集中均富集到了
cytokine-cytokine
互作通路(图
6bd
)。
图
6.GO
、
KEGG
富集分析结果
TCGA
(
ab
)、
ICGC
(
cd
)
六、
risk score
与免疫浸润细胞相关性分析
为了进一步研究risk score与免疫状态相关性,研究使用
ssGSEA
量化了免疫细胞得分和免疫相关功能、通路得分。结果表明,
TCGA
队列中抗原呈递过程相关得分高低风分组中显著差异(
P-adj <0.05
,图
7a-b
)
,
高风险有更高
cytokine-cytokine
互作通路得分(图
7b
)。高风险组
II
型
IFN
反应、
I
型
IFN
反应、
NK
细胞得分更低,免疫检查位点活性、而巨噬细胞、
Treg
得分则相反(
P-adj <0.05
,图
7a-b
)。
ICGC
队列验证了两个风险组之间的
HLA
,
I
型
MHC
,
II
型
IFN
反应,检查点分子,巨噬细胞、
Treg
细胞的差异(校正后的
P <0.05
,图
7c-d
)。特别是,两个数据集中巨噬细胞得分在统计学上差异最大,这与
GO
分析中的发现是一致的。
图
5. TCGA
(
a-b
)
he ICGA(c-d)
高低风险分组
ssGSEA
差异(
ac-16种
免疫细胞得分,
cd-13种
免疫功能得分)
总结:
研究癌型特别相关的基因集,要
用好数据(分析
+
验证样本不要太小结果好一些)!
转自生信人
分享
下一篇:
数据库|HRGFish:鱼类缺氧基因数据库
上一篇:
数据库|次级代谢数据库antiSMASH
发表评论
登录评论
匿名评论
提交
提交
电话咨询
小程序
联系客服
搜索
移动首页
PC官网
在线留言
购物车
我的