分类性能指标

一直以来,被召回率准确率精准率查全率查准率F1值混淆矩阵aucrocTPNPTNPN等等等等所困惑,每次需要知道具体的含义,都是去百度,百度完了看了就忘了,生气!百度了几十遍了!这回一定要总结完毕!

一、从混淆矩阵说起

混淆矩阵

confusion matrix

我预测的
正类 负类  
实际情况 正类 TP FN TP+FN=实际正样本数
负类 FP TN FP+TN=实际负样本数
  TP+FP=我预测的正样本数 FN+TN=我预测的负样本数  

图1 混淆矩阵

❤对于四个格子中的TPFNFPTN可以分成两部分来看:

首字母T/N:表示一种判断,即这种判断是True or False。例如TP,是把正类预测成正类,这个判断是对的,所以是T;例如TN,是把负类预测成负类,也是对的,所以T。

尾字母P/N:表示预测的结果,即预测成Positive or Negative。例如FN,预测结果就是负类N;FP,预测结果是正类P。

继续看混淆矩阵,我们可以知道正对角线上的两个值:TP TN,越大越好,因为这是两个代表判断正确的值,最好的结果就是正对角线上值最大,副对角线上值为0。

❤那么对于TP+FN,FP+TN,TP+FP,FN+TN要怎么快速反映出它代表的是什么呢?以前我总是慢慢推,但现在看来也有规律:

首先看首字母,首字母一定是一个T一个F;

然后看尾字母,如果尾字母不相同,那么就大胆的判断一定是实际情况,否则就是预测情况。例如我可以很快看出TP+FN一定是实际的某类样本数,而TP+FP一定不是实际情况。

既然这个加法算式的首字母一定是一个T一个F,那么我们就继续看T的后面,如果T后是P,那么就是正样本数,如果T后是N就是负样本数。

现在做个例题吧!TP+FN,由于字母没有重合,所以这是实际样本数;因为T后面是P,所以是正样本;总结起来就是TP+FN代表着实际情况中正样本的数量。

二、四大指标

有了TP TN FP FN之后,就可以慢慢推出其他指标,先理性的认识一下,就是看看公式:

精准率(Precision)=TP/(TP+FP)  #又叫查准率

 

上一篇:蒙哥马利约减算法


下一篇:TN TP FN FP 含义