生存预后建模方案分析

方案分析:

1. GEOTCGA等公共数据库下载表达和临床数据

从数据库中下载表达与临床数据。

2. 单因素COX回归筛选与生存期相关的基因

Cox回归模型,又称比例风险回归模型(proportionalhazards model,简称Cox模型),是由英国统计学家D.R.Cox提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量,可同时分析多种因素对于生存期长短的影响。Cox模型能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型,因此在医学界被广泛使用。

Cox回归模型中的风险比HR为每升高一个单位的因素,对应生存期改变的比例,通常用来描述排除其他因素后,该因素的相对危险度。而Cox回归模型的假设检验是指在排除其他因素后,该因素与生存期的相关性检验,通常p值 <0.05时我们可以认为该因素与生存期显著相关。

3. 1000Lasso进一步筛选相关基因

LassoLeast absolute shrinkage and selection operator

Lasso对数据的要求低,应用范围广,可筛选变量,降低模型的复杂程度,最终获得变量最少的广义线性模型。我们将lasso回归模型应用于对基因的筛选,获得与生存相关的最佳基因集。

Lasso算法公式如下:

9.png

4. 多元COX回归,建立风险评分公式,计算最优阈值区分高低风险组

Lasso筛选出的基因集作为一个整体模型,进行多元Cox回归分析。

风险指数引入cox多元回归的风险回归系数β值来预测每个样本的风险系数。每个样本的风险系数为该样本下每个基因对应的多元COX回归beta值与该基因的表达量的乘积之和。

风险指数计算公式:RiskScore = Σβi * xi.
βi
:基因对应的多元COX回归beta值;xi:基因表达值。

5. 在验证集中检验风险评分的预测能力,绘制ROCDCA、生存曲线等

ROC曲线评估风险指数分类器模型的效果。AUC值为ROC曲线所覆盖的区域面积,AUC值越大,分类器分类效果越好。

依据风险指数区分样本高低风险组,结合生存信息绘制生存曲线。

6. 比较高低风险两组的突变、表达、可变剪切、甲基化等差异

风险指数区分样本高低风险组后,结合突变、表达、可变剪切、甲基化等信息,分析高风险组与低风险组之间的差异。

7. 相关差异基因的功能和相互作用分析。

对筛选出的基因panel的相关的差异基因进行功能注释、通路分析(GOKEGG)和相互作用分析,探索genepanel的影响作用机制。

R2基因组学平台(https://hgserver1.amc.nl/cgi-bin/r2/main.cgi)是一个免费的、可公开访问的基于web的基因组学分析和可视化平台,允许生物医学研究人员在没有生物信息学培训的情况下集成、分析可视化临床基因组学数据。

R2数据库的使用

#浏览数据

Main —>   ChangeDataset(选择当前数据库)

10.png

11.png

Main —>   Advanced Selection —>   Data Type—>   选择数据—>   数据介绍

(在数据介绍中,如果数据来自GEO,也可从GEO途径下载)

12.png


#下载数据

Tools > Data Grabber > 下拉菜单选择数据库 > next

13.png

随后出现一个设置菜单

sample filter Select a track(subset)用于选择已注释分组;

Transformationtransform为数据标准化方法;

reportersGenes/Probeset selection可选参数有Manual selection(需要提供基因列表,输出提供的基因列表的表达)、HugoOnce(输出全部基因表达)、 All reporters

数据下载文件大小有限制,不可超过300MB

点击超链接下载表达矩阵:datagrabber.txt

14.png

15.png

分享