——lasso代码 |
LASSO是一种机器学习算法,通常被用来构建可以预测预后情况的基因模型。也可以筛选与特定性状相关性强的基因。LASSO对于高维度、强相关、小样本的生存资料数据有较好的效果。LASSO的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而使某些回归系数严格等于0,来得到可以解释的模型。
该方法的估计参数
λ为调整参数。随着l的增加,项就会减小,这时候一些自变量的系数就逐渐被压缩为0,以此达到对高维资料进行降维的目的。LASSO方法的降维是通过惩罚回归系数的数量来实现的。
基本原理
LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选(Variable Selection)和复杂度调整(Regularization)。因此,不论目标因变量(dependent/response varaible)是连续的(continuous),还是二元或者多元离散的(discrete),都可以用LASSO回归建模然后预测。这里的变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合(Overfitting)。对于线性模型来说,复杂度与模型的变量数有直接关系,变量数越多,模型复杂度就越高。更多的变量在拟合时往往可以给出一个看似更好的模型,但是同时也面临过度拟合的危险。此时如果用全新的数据去验证模型(Validation),通常效果很差。一般来说,变量数大于数据点数量很多,或者某一个离散变量有太多独特值时,都有可能过度拟合。
LASSO回归复杂度调整的程度由参数λ来控制,λ越大对变量较多的线性模型的惩罚力度就越大,从而最终获得一个变量较少的模型。 LASSO回归与Ridge回归同属于一个被称为Elastic Net的广义线性模型家族。这一家族的模型除了相同作用的参数λ之外,还有另一个参数α来控制应对高相关性(highly correlated)数据时模型的性状。 LASSO回归α=1,Ridge回归α=0,一般Elastic Net模型0<α<1。
LASSO过程中我们通常会进行多次交叉验证(cross validation)拟合(1000次)进而选取模型,从而对模型的性能有一个更准确的估计。
Lasso术语解读
λ(Lambda):
复杂度调整惩罚值,λ越大对变量较多的线性模型的惩罚力度就越大,最终获得的变量越少。lambda.min 是指在所有的λ值中,得到最小目标参量均值的那一个。而lambda.1se 是指在 lambda.min 一个方差范围内得到最简单模型的那一个λ值。
交叉验证(cross validation):
交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。
数据要求:
1、表达谱芯片或测序数据(已经过预处理)或突变数据
2、包含生存状态和生存时间的预后数据或者其它临床分组数据
下游分析
针对LASSO获得的基因模型(或称基因Panel)的验证:
1.计算风险指数Risk Score
2.绘制ROC曲线、DCA曲线、列线图进行验证
3.绘制生KM存曲线
对基因模型中的基因进行解释和分析:
1.基因注释
2.靶向药物分析
图形示例:
1、LASSO回归图
图注:
图中的每一条曲线代表了每一个自变量系数的变化轨迹,纵坐标是系数的值,下横坐标是系数的L1-norm值(也可以切换为log(λ)值或者模型解释的残差的比例%Dev),上横坐标是此时模型中非零系数的个数。 我们可以看到随着λ值变小,系数的L1-norm值变大,系数不断变大。
应用示例:
文献1:Prognosticand predictive value of a microRNA signature in stage II colon cancer: amicroRNA expression analysis.于2013年12月发表在Lancet Oncol.,影响因子35.386。
一个miRNA特征集在stageII结肠癌的预后预测作用分析
文章对stageII结肠癌组织和癌旁正常组织的miRNA芯片数据进行了差异表达分析,并通过LASSO Cox回归对获得的差异表达miRNA进行筛选,获得了6个miRNA的可以预测预后情况的miRNA特征集。
文献2:PrognosticValue of a BCSC-associated MicroRNA Signature in Hormone Receptor-PositiveHER2-Negative Breast Cancer(于2016年9月发表在EBioMedicine.上,影响因子6.68)
激素受体阳性HER2阴性乳腺癌中具有预后价值的癌症干细胞相关miRNA特征集
文章将符合条件的患者划分为训练集和测试集,首先分析获得了癌症干细胞相关的miRNA,接着通过LASSO对癌症干细胞相关的miRNA进行筛选,构建了10个miRNA的预后预测模型,并计算风险指数绘制了生存曲线和ROC曲线。