逻辑回归4-分类评估方法、混淆矩阵、精确率、召回率、roc曲线、auc指标

1.分类评估方法

1.1 精确率与召回率

1.1.1 混淆矩阵

在分类任务下,预测结果(Predicted Condition)与正确标记(True Condition)之间存在四种不同的组合,构成混淆矩阵(适用于多分类)
逻辑回归4-分类评估方法、混淆矩阵、精确率、召回率、roc曲线、auc指标

1.1.2 准确率、精确率(Precision)与召回率(Recall)

  • 准确率:(对不对)
    • (TP+TN)/(TP+TN+FN+FP)
  • 精确率:(查的准不准)
    • TP/(TP+FP)
      逻辑回归4-分类评估方法、混淆矩阵、精确率、召回率、roc曲线、auc指标
  • 召回率:查的全不全
    • TP/(TP+FN)
      逻辑回归4-分类评估方法、混淆矩阵、精确率、召回率、roc曲线、auc指标

1.2 F1-score

F1-score,反映了模型的稳健型
逻辑回归4-分类评估方法、混淆矩阵、精确率、召回率、roc曲线、auc指标

1.3 分类评估报告API

  • sklearn.metrics.classification_report(y_true, y_pred, labels=[], target_names=None )
    • y_true:真实目标值
    • y_pred:估计器预测目标值
    • target_names:目标类别名称
    • return:每个类别精确率与召回率
ret = classification_report(y_test, y_predict, labels=(2,4), target_names=("良性", "恶性"))
print(ret)

2 ROC曲线与AUC指标

假设这样一个情况,如果99个样本癌症,1个样本非癌症,不管怎样我全都预测正例(默认癌症为正例),准确率就为99%但是这样效果并不好,这就是样本不均衡下的评估问题

问题:如何衡量样本不均衡下的评估?

2.1 TPR与FPR

  • TPR = TP / (TP + FN)
    • 所有真实类别为1的样本中,预测类别为1的比例
  • FPR = FP / (FP + TN)
    • 所有真实类别为0的样本中,预测类别为1的比例

2.2 ROC曲线

ROC曲线的横轴就是FPR,纵轴就是TPR,当二者相等时,表示的意义则是:对于不论真实类别是1还是0的样本,分类器预测为1的概率是相等的,此时AUC为0.5
逻辑回归4-分类评估方法、混淆矩阵、精确率、召回率、roc曲线、auc指标

2.3 AUC指标

  • AUC的概率意义是随机取一对正负样本,正样本得分大于负样本得分的概率
  • AUC=1,完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5<AUC<1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
    • 越接近1,效果越好
    • 越接近0,效果越差
    • 越接近0.5,效果就是胡说
上一篇:机器学习 | 分类性能度量指标 : ROC曲线、AUC值、正确率、召回率


下一篇:AUC两种计算方式