ROC 机器学习
受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve),是用来验证一个分类器(二分)模型的性能的。一般应用于直观展示敏感性和特异性连续变量的综合指标,如比较多个biomarker或临床参数的诊断表现、比较多个算法的分类效果。
基本原理
ROC曲线工作原理是,向模型中输入已知正负类的一组数据,对比模型对该组数据的预测,衡量这个模型的性能。
术语解读:
1、TP(True Positive,真正, TP)被模型预测为正的正样本(原来为正预测为正)
2、TN(True Negative,真负 , TN)被模型预测为负的负样本(原来为负预测为负)
3、FP(False Positive,假正, FP)被模型预测为正的负样本(原来为负预测为正)
4、FN(False Negative,假负 , FN)被模型预测为负的正样本 (原来为正预测为负)
5、真正类率(True Postive Rate)TPR: TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。Sensitivity
6、假正类率(False Postive Rate)FPR: FP/(FP+TN),代表分类器预测的负类中预测为正实例(实际为负实例)占所有负实例的比例。1-Specificity
7、真负类率(True Negative Rate)TNR: TN/(FP+TN),代表分类器预测的负类中实际负实例占所有负实例的比例,TNR=1-FPR。Specificity
横轴:假正类率(false postive rate FPR)特异度,预测的负类中正实例占所有负实例的比例;(1-Specificity)
纵轴:真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率)
8、AUC(Area under rocCurve):指ROC曲线下的面积,AUC的值越大,说明该模型的性能越好。
数据要求:
二分类模型对输入数据的预测结果,输入数据的实际结果。
图形示例:
该曲线的横坐标为假阳性率(False Positive Rate, FPR),纵坐标为真阳性率(True Positive Rate,TPR)
应用示例1:(于2019年4月发表在Microbiome.,影响因子3.287)
文章使用随机森林算法,基于不同水平的微生物和代谢物构建了5个分类器模型,来区分病例与对照。
a. ROC:采用CAG +血清代谢物模块,对201名被试在发现阶段的重要变量进行重要性排序,得出随机森林分类器。
b. 每个比较中基于随机森林模型的详细解释变量。 柱状图中条形的长度代表平均降低准确度,其表明CAG或代谢物模块对分类的重要性。
c. ROC:使用验证群组中重要的解释变量交叉验证随机森林分类器。
应用示例2:(于2017年12月发表在Eur Urol ,影响因子17.298)
文章结合临床参数和多参数磁共振成像,对前列腺癌患者的肿瘤模型进行进一步的研究,通过建立风险模型来预测未活检男性和活检后男性个体的sPC风险。
ROC曲线分析:MPMRIPI-RADSV1.0(黄色线)、ERSPC-RC3/4(绿色线)、改进后的RC3/4(粉红色线)、ERSPC-RC3/4+MPMRIPI-RADSV1.0(蓝色线)和新的风险模型(橙色线)预测未活检和活检后患者sPC风险。