方案分析:
1. GEO、TCGA等公共数据库下载表达和临床数据
从数据库中下载表达与临床数据。
2. 单因素COX回归筛选与生存期相关的基因
Cox回归模型,又称比例风险回归模型(proportionalhazards model,简称Cox模型),是由英国统计学家D.R.Cox提出的一种半参数回归模型。该模型以生存结局和生存时间为应变量,可同时分析多种因素对于生存期长短的影响。Cox模型能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型,因此在医学界被广泛使用。
Cox回归模型中的风险比HR为每升高一个单位的因素,对应生存期改变的比例,通常用来描述排除其他因素后,该因素的相对危险度。而Cox回归模型的假设检验是指在排除其他因素后,该因素与生存期的相关性检验,通常p值 <0.05时我们可以认为该因素与生存期显著相关。
3. 1000次Lasso进一步筛选相关基因
Lasso(Least absolute shrinkage and selection operator)
Lasso对数据的要求低,应用范围广,可筛选变量,降低模型的复杂程度,最终获得变量最少的广义线性模型。我们将lasso回归模型应用于对基因的筛选,获得与生存相关的最佳基因集。
Lasso算法公式如下:
4. 多元COX回归,建立风险评分公式,计算最优阈值区分高低风险组
Lasso筛选出的基因集作为一个整体模型,进行多元Cox回归分析。
风险指数引入cox多元回归的风险回归系数β值来预测每个样本的风险系数。每个样本的风险系数为该样本下每个基因对应的多元COX回归beta值与该基因的表达量的乘积之和。
风险指数计算公式:RiskScore = Σβi * xi.
βi:基因对应的多元COX回归beta值;xi:基因表达值。
5. 在验证集中检验风险评分的预测能力,绘制ROC、DCA、生存曲线等
用ROC曲线评估风险指数分类器模型的效果。AUC值为ROC曲线所覆盖的区域面积,AUC值越大,分类器分类效果越好。
依据风险指数区分样本高低风险组,结合生存信息绘制生存曲线。
6. 比较高低风险两组的突变、表达、可变剪切、甲基化等差异
风险指数区分样本高低风险组后,结合突变、表达、可变剪切、甲基化等信息,分析高风险组与低风险组之间的差异。
7. 相关差异基因的功能和相互作用分析。
对筛选出的基因panel的相关的差异基因进行功能注释、通路分析(GO和KEGG)和相互作用分析,探索genepanel的影响作用机制。
R2基因组学平台(https://hgserver1.amc.nl/cgi-bin/r2/main.cgi)是一个免费的、可公开访问的基于web的基因组学分析和可视化平台,允许生物医学研究人员在没有生物信息学培训的情况下集成、分析、可视化临床和基因组学数据。
R2数据库的使用
#浏览数据
Main —> ChangeDataset(选择当前数据库)
Main —> Advanced Selection —> Data Type—> 选择数据—> 数据介绍
(在数据介绍中,如果数据来自GEO,也可从GEO途径下载)
#下载数据
Tools > Data Grabber > 下拉菜单选择数据库 > next
随后出现一个设置菜单
sample filter 中Select a track(subset)用于选择已注释分组;
Transformation中transform为数据标准化方法;
reporters中Genes/Probeset selection可选参数有Manual selection(需要提供基因列表,输出提供的基因列表的表达)、HugoOnce(输出全部基因表达)、 All reporters
数据下载文件大小有限制,不可超过300MB
点击超链接下载表达矩阵:datagrabber.txt