TCGA分析KM生存曲线存在各种误区

一、各种网页工具没有规范标准

造成误差的原因:数据源不同(各个工具数据源更新时间不同,部分仍使用陈旧的数据)

  • 样本清洗方法不同

  • 生存时间划分差异(OS与DFS),截取时间范围不同

  • 表达数据标准化方式不同(counts数、TPM等)

  • P值算法差异等

例如同样的基因,同样的疾病,在不同工具中绘制出的生存曲线却不一致
oncolnc(http://www.oncolnc.org):
1.png
Kaplan-Meier Plotter(http://kmplot.com/analysis)

2.png

GEPIA(http://gepia.cancer-pku.cn/)

3.png


此外,目前绘制KM生存曲线的工具功能都比较单一,只能绘制单个基因在固定疾病中的KM曲线,不能绘制亚型中的生存曲线,也不能绘制其他因素(例如临床性状)的生存曲线。

二、使用R绘制KM曲线可能因为细节问题产生巨大误差
  • 样本差异,缺少部分样本可能导致明显的结果误差,应该尽量使用TCGA最新的临床数据(例:缺少几十个死亡样本的数据绘制效果,与以往文献研究结果违背)

4.png

  • 生存状态填反,在R函数中,存活状态以数字0标记,死亡状态以数字1标记,有一定的反直觉性,填反将导致较大的结果错误

5.png

  • 时间截取问题,不同时间截取的曲线效果不同,如乳腺癌适合绘制10年生存曲线,时间过长或过短都可能使结果与预期不合

6.png



此外:生存数值处理,当生存数据中包含NA或其他非数字字符时,可能在R环境中被存为非数值格式,转换过程容易产生数值错误

  • 合理绘制的结果(真正与以往研究结果相符)

7.png

我们绘制生存曲线采用了最新最权威的数据,并且在数据处理上采用了规范、科学的方法,保证结果可信可靠。
分享