混淆矩阵、精度、召回率、ROC、AUC

因为自己总记不太清具体的意义,这里梳理一下:

这里的TP、FN、FP、TN,其实真正对应的都说的是预测

TP:真的正样本(预测),实际也是正样本

FN:假的负样本(预测),实际也是正样本

FP:假的正样本(预测),实际是负样本

TN:真的负样本(预测),实际是负样本

precision = TP/(TP+FP)

recall = TP/(TP+FN)

1/F = (1/2)  * (1/precision+1/recall)

例子:视频采样判断是否是一个小偷,召回率很高,同时准确率很低。(判断为小偷的,基本都是小偷,但是正常人也被判别成了小偷)

ROC :真阳(召回率)为纵坐标,假阳(FP/FP+TN),ROC正常应该在y=x之上。

AUC:ROC下的面积

具体选择PR曲线还是ROC曲线,有一条经验法则:

PR 、 ROC 都是通过不断变化阈值来画出来的。
PR曲线能够衡量在特定数据集上的表现。(右上凸更好)

ROC曲线能够在样本不均衡的时候更客观的衡量模型本身的性能。(左上凸更好)

 

上一篇:ROC曲线与AUC面积、Gini系数、KS值 之间关系


下一篇:集成学习3:XGBoost&LightGBM