分类评价指标

目录

1、二分类

(1)指标:

(2)场景:

(3)参考公式计算:

2、多分类



1、二分类

(1)指标:

准确率、精确率、召回率、F1、roc曲线、AUC值

(2)场景:

(2.1)准确率、精确率、召回率都有比较特定的场景,例如搜索结果准确率适宜精确率、医生检查病症适宜召回率,F1是精确率和召回率的调和考虑指标;

(2.2)roc曲线、AUC值是仅适应2分类问题时的很好用指标,AUC值是ROC曲线面积的量化,所以关键理解下roc曲线横纵坐标:roc曲线是越往左上角越好,纵坐标是看真正率(正的里面预测为正的,越多越好),横坐标是看假正率(负的里面预测为正的,越少越好),所以两个坐标想表达的意思都是“实际情况”里的情况,因此当需要预测的数据正负样本不平衡并不会导致曲线有较大变动,这点上比P-R曲线好;再者,roc的曲线生成过程是利用了很多个阈值,也比单纯利用一次阈值得到精确率、准确率要更有说服性;另外,也可以看出只适应于2分类评价情况。

(3)参考公式计算:

参考详细描述链接:

https://blog.csdn.net/wf592523813/article/details/95202448?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control

2、多分类

F1-score

在spark mllib中,evaluator中有区分2分类还是多分类库

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

上一篇:性能度量 - 对学习器泛化能力的评估


下一篇:第27期 Datawhale 组队学习 吃瓜教程——西瓜书+南瓜书第一章和第二章 / 周志华《机器学习》