性能度量
- 对回归模型常用MSE
- 对分类模型常用错误率和精度
-
在二分类模型中有以下问题
-
预测为正例的样本中有多少比例是正例
查准率
\[precision = \frac{TP}{TP+FP} \]
-
-
有多少比例的正例被预测为正例
查全率
\[ recall = \frac{TP}{TP+FN} \]
-
混淆矩阵
-
PR曲线
横坐标是recall,纵坐标是precision
PR曲线一定程度地反映了,该模型区分正例和负例的能力。
PR曲线面积小,说明模型对正例和负例的区分能力不足。
-
ROC曲线
横坐标是假阳性率FPR,纵坐标是灵敏度TPR(recall)
\[FPR=\frac{FP}{TN+FP} \]ROC曲线下的面积
\[AUROC=1-\frac{1}{m^-m^+}\sum_{x^+\in D^+}\sum_{x^-\in D^-}{I(f(x^+)<f(x^-))+\frac{1}{2}I(f(x^+)=f(x^-))} \\ =1-l_{rank} \]这种形式可以看出ROC曲线面积能够衡量样本预测的排序误差
-
PR曲线(或ROC曲线)的绘制
对样本的预测输出排序(例如神经网络模型输出是数值),取一个阈值,计算该阈值对应的PR曲线(或ROC曲线)上的一点
ROC曲线效果好说明对样本预测排序的误差小,而PR曲线效果差说明模型的预测值不能很好地区分正例和负例
ROC曲线效果好但是PR效果差
-
ROC曲线效果好,说明能同时保持查全率高和假阳性率低。
根据定义,当阈值的选取使得查全率(TPR)高时,FN远小于TP。又因为假阳性率(FPR)低,所以FP远小于TN。
说明很少有阳性样本被判断成阴性,被判断成阳性样本的阴性样本的数量(FP)远小于正确判断为阴性的样本的数量(TN)。
-
PR曲线效果不好,说明查全率高的时候准确率低。
根据定义,当阈值的选取使得查全率高的时候,FN远小于TP,而FP远大于TP。说明很少有阳性样本被判断成阴性,但是有很多阴性样本被判断成阳性。
因为是得到了同一个查全率,以上两种情况中取的阈值是同一个,所以\(FN\ll TP \ll FP \ll TN\)。其中FP和TN是阴性样本,FN和TP是阳性样本,这说明数据集里阴性样本的数量远大于阳性样本的数量。
- 样本不平衡问题,数据增强,集成学习
- 改善模型,进而提高AUPR性能