——survivalCurve代码 |
survivalCurve生存分析
生存分析(survivalCurve)旨在更好地分析对不同因素对患者预后的影响,从而找到影响患者疾病的关键因素。生存曲线(Kaplan-Meier曲线)是生存分析的基本步骤,展示分类样本的生存曲线,从而揭示不同因素对疾病预后的影响。一般可应用的研究方向有:患者的生存期跟基因变异的关系、药物处理导致模式动物生存期变化。
基本原理
Kaplan-Meier法,直接用概率乘法定理估计生存率,故称乘积极限法(product-limit method),是一种非参数法。相比其他方法,KM曲线能更好的处理删失数据。
先将样本生存时间从小到大排列。若遇到非删失值和删失值相同时,非截删失排在前面。在生存时间后列出与时间相应的死亡人数,期初病例数(即生存期为某时间时尚存活的病例数)。然后计算活过每个时间点的生存率。以生存时间为横坐标,生存率为纵坐标所作的曲线,即为Kaplan-Meier曲线。
术语解释
风险比(Hazard Ratio, HR):
Kaplan-Meier方法中计算的风险比HR为两分组对生存期影响的比例,用来描述该基因高表达对生存期的危险程度。该方法中的假设检验为两组中样本的生存期是否存在差异,即该因素是否会导致生存期的改变。
删失(censored):
在生存分析中,部分样本在随访阶段并未发生死亡或无法继续进行随访,这部分数据即为删失数据。
生存时间
总生存期(Overall survival)
从患者确证开始值仍和原因引起死亡的时间,该指标常常被认为是肿瘤临床试验中最佳疗效的终点。
数据要求:
样本的分组情况(想要研究的因素)
样本的随访数据(总生存期,生存状态)
下游分析
若影响因素为临床特征:
分析与该临床特征相关的转录组学特征
基于该临床特征,探寻该疾病的分子亚型
若影响因素为基因:
分析基因在疾病中可能的功能
分析基因在疾病中是否为驱动基因
针对基因分析该疾病药物治疗方案
图形示例:
不同基因表达分组生存曲线
根据基因表达情况分为高表达组与低表达组,观察该基因的差异表达是否会与患者生存期的长短相关。
图注:横轴代表时间,纵轴代表生存率,平缓的曲线表示高生存率或较长生存期,陡峭的曲线表示低生存率或较短生存期。
应用示例:
文献1:PD-1 and PD-L1 co-expression predicts favorable prognosis in gastriccancer
PD-1和PD-L1共表达预测胃癌的预后好坏(于2017年7月发表在Oncotarget.上,影响因子4.784)
该文献中,作者收集了340例胃癌患者的预后信息以及PD-1、PD-L1的表达情况,并基于该数据绘制了生存曲线,发现表达PD-1的患者总体生存率更好。
文献2:VEGFR2 promotes tumorigenesis and metastasis in apro-angiogenic-independent way in gastric cancer
VEGFR2在胃癌中以非促进血管生成的方式影响肿瘤的发生和转移(于2019年2月发表在BMC Cancer. ,影响因子2.933)
该文献中,作者收集了156例胃癌患者预后信息以及VEGF基因表达情况,并基于该数据绘制了生存曲线,发现VEGFR2高表达的患者总体生存率更差。