模型评价指标

2024-04-08 22:01:10

TP、FP、TN、FN

True Positives,TP：预测为正样本，实际也为正样本的特征数
False Positives,FP：预测为正样本，实际为负样本的特征数
True Negatives,TN：预测为负样本，实际也为负样本的特征数
False Negatives,FN：预测为负样本，实际为正样本的特征数

精确率、召回率与特异性

精确率(precision)：P = TP / (TP+FP) 预测为正样本中实际也为正例的比率

召回率(recall)：R = TP / (TP+FN)实际为正例中预测为正例的比率

特异性(specificity)：S = TN / (FP+TN)实际为负样本中预测为负样本的比率

灵敏度(true positive rate)：TPR = TP / (TP+FN)所有正例中正确识别正例的比率

特异度(false positive rate)：FPR = FP / (FP+TN)实际负例中，错误识别为正例的比率

ROC曲线和PR曲线

　　以TPR为y轴，以FPR为x轴，我们就直接得到了RoC曲线。从FPR和TPR的定义可以理解，TPR越高，FPR越小，我们的模型和算法就越高效。也就是画出来的RoC曲线越靠近左上越好。如下图左图所示。从几何的角度讲，RoC曲线下方的面积越大越大，则模型越优。所以有时候我们用RoC曲线下的面积，即AUC（Area Under Curve）值来作为算法和模型好坏的标准。

　　以精确率为y轴，以召回率为x轴，我们就得到了PR曲线。仍然从精确率和召回率的定义可以理解，精确率越高，召回率越高，我们的模型和算法就越高效。也就是画出来的PR曲线越靠近右上越好。

码农公寓

相关文章