目录
1、二分类
(1)指标:
准确率、精确率、召回率、F1、roc曲线、AUC值
(2)场景:
(2.1)准确率、精确率、召回率都有比较特定的场景,例如搜索结果准确率适宜精确率、医生检查病症适宜召回率,F1是精确率和召回率的调和考虑指标;
(2.2)roc曲线、AUC值是仅适应2分类问题时的很好用指标,AUC值是ROC曲线面积的量化,所以关键理解下roc曲线横纵坐标:roc曲线是越往左上角越好,纵坐标是看真正率(正的里面预测为正的,越多越好),横坐标是看假正率(负的里面预测为正的,越少越好),所以两个坐标想表达的意思都是“实际情况”里的情况,因此当需要预测的数据正负样本不平衡并不会导致曲线有较大变动,这点上比P-R曲线好;再者,roc的曲线生成过程是利用了很多个阈值,也比单纯利用一次阈值得到精确率、准确率要更有说服性;另外,也可以看出只适应于2分类评价情况。
(3)参考公式计算:
参考详细描述链接:
2、多分类
F1-score
在spark mllib中,evaluator中有区分2分类还是多分类库
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator