(原创)
本文讨论机器学习的评估指标
1.混淆矩阵
混淆矩阵包括4个基本指标量,反映预测正负样本的情况。他们是 TP,TN,FP,FN
第一个字母,表示预测的正确与否,正确为T true,错误为F false
第二个字母,表示预测的结果,预测为正样本为P,预测为负样本为N
所以:
TP:预测正确,预测正,实际正
TN:预测正确,预测负,实际负
FP:预测错误,预测正,实际负
FN:预测错误,预测负,实际正
2.基于上述基本指标衍生的指标
(1)accuracy
预测正确的/总样本量 ,
也即 (TP+TN)/(TP+TN+FP+FN)
(2)precision
预测为正且正确的/所有预测为正样本的 ,
也即 TP/(TP+FP)
(3)TPR/命中率/召回率recall
预测为正且正确的/实际正样本
也即 TP/(TP+FN)
(4)FPR
反应对负样本的猜错情况,预测错误且预测为正/实际的负样本
也即 FP/(TN+FP)
(5)F1分数
precision 和 recall 的调和平均
(6)ROC曲线和AUC值
横轴为 FPR ,纵轴为 TPR ,遍历阈值做出曲线
曲线下的面积即AUC值