15 机器学习模型评估指标–机器学习基础理论入门
7.1 回归问题评估指标
绝对误差
绝对误差为预测点与真实点之间距离之差的绝对值的平均值,即:
均方误差
均方误差为预测点与实际点之间距离之差平方和的均值,即
因为绝对误差不是光滑的函数,所以一般都是使用均方误差作为回归问题的评估指标。
7.2 分类问题评估指标
分类问题结果类别:
混淆矩阵
TN:True negative真阴;FP:False positive假阳
FN:False negative假阴;TP:True positive真阳
1) 精准率(precision)
所有预测为正例的样本(TP+FP)中真正为正例的样本(TP)的比率,又叫查准率,即
2) 召回率(recall)
所有预测样本中真正为正例的样本(TP)与样本中实际正例(TP+TN)的比值,又叫查全率,即
3) F1_score值
查准率和查全率使一对相矛盾的量,一种综合指标使F1值,即
4) ROC曲线&AUC面积
ROC曲线评价学习器性能,检验分类器对客户进行正确排序的能力。
ROC曲线性质:如果一条曲线完全包裹另一条曲线,则外面曲线的性能更优。(ROC曲线下面的面积称为AUC area
ROC曲线举例
有如下10个样本数据,其实际类别已经给出,模型预测为正例(P)的概率已经给出,由此画出ROC曲线:
5)混淆矩阵
混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具。
如:有150个样本数据,这些数据分成3类,每类50个,预测后得到的混淆矩阵为:
从上可以看出:如果混淆矩阵中非对角线元素全为0,则表示是一个完美的分类器。
6) 准确率(accuracy)
Accuracy=(TP+TN) / (TP+FP+TN+FN)
一般要0.8以上
7) KS曲线,KS值—学习器将正例和反例分开的能力,确定最好的“截断点”
KS曲线和ROC曲线都用到了TPR,FPR。
KS曲线是把TPR和FPR都作为纵坐标,而样本数作为横坐标
7.3 本章小结
知识点回顾
学习要求
(1) 理解回归问题、分类问题对应评价指标的意义;
(2) 掌握回归问题、分类问题和聚类问题对应评价指标的使用方法和应用范围;
(3) 了解互相之间的区别和联系。