15 机器学习模型评估指标--机器学习基础理论入门

15 机器学习模型评估指标–机器学习基础理论入门

7.1 回归问题评估指标

绝对误差

绝对误差为预测点与真实点之间距离之差的绝对值的平均值,即:
15  机器学习模型评估指标--机器学习基础理论入门

均方误差

均方误差为预测点与实际点之间距离之差平方和的均值,即
15  机器学习模型评估指标--机器学习基础理论入门
因为绝对误差不是光滑的函数,所以一般都是使用均方误差作为回归问题的评估指标。

7.2 分类问题评估指标

分类问题结果类别:

混淆矩阵
15  机器学习模型评估指标--机器学习基础理论入门
TN:True negative真阴;FP:False positive假阳
FN:False negative假阴;TP:True positive真阳

1) 精准率(precision)

所有预测为正例的样本(TP+FP)中真正为正例的样本(TP)的比率,又叫查准率,即
15  机器学习模型评估指标--机器学习基础理论入门

2) 召回率(recall)

所有预测样本中真正为正例的样本(TP)与样本中实际正例(TP+TN)的比值,又叫查全率,即
15  机器学习模型评估指标--机器学习基础理论入门

3) F1_score值

查准率和查全率使一对相矛盾的量,一种综合指标使F1值,即
15  机器学习模型评估指标--机器学习基础理论入门
15  机器学习模型评估指标--机器学习基础理论入门

4) ROC曲线&AUC面积

15  机器学习模型评估指标--机器学习基础理论入门
ROC曲线评价学习器性能,检验分类器对客户进行正确排序的能力。
ROC曲线性质:如果一条曲线完全包裹另一条曲线,则外面曲线的性能更优。(ROC曲线下面的面积称为AUC area

ROC曲线举例
有如下10个样本数据,其实际类别已经给出,模型预测为正例(P)的概率已经给出,由此画出ROC曲线:
15  机器学习模型评估指标--机器学习基础理论入门

5)混淆矩阵

混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具。
如:有150个样本数据,这些数据分成3类,每类50个,预测后得到的混淆矩阵为:
15  机器学习模型评估指标--机器学习基础理论入门
从上可以看出:如果混淆矩阵中非对角线元素全为0,则表示是一个完美的分类器。

6) 准确率(accuracy)

Accuracy=(TP+TN) / (TP+FP+TN+FN)
一般要0.8以上

7) KS曲线,KS值—学习器将正例和反例分开的能力,确定最好的“截断点”

KS曲线和ROC曲线都用到了TPR,FPR。
KS曲线是把TPR和FPR都作为纵坐标,而样本数作为横坐标

7.3 本章小结

知识点回顾
15  机器学习模型评估指标--机器学习基础理论入门
学习要求
(1) 理解回归问题、分类问题对应评价指标的意义;
(2) 掌握回归问题、分类问题和聚类问题对应评价指标的使用方法和应用范围;
(3) 了解互相之间的区别和联系。

上一篇:机器学习分类模型中的评价指标介绍:准确率、精确率、召回率、ROC曲线


下一篇:训练贷款模型时样本、模型、监控的一些点