一直以来,被召回率准确率精准率查全率查准率F1值混淆矩阵aucrocTPNPTNPN等等等等所困惑,每次需要知道具体的含义,都是去百度,百度完了看了就忘了,生气!百度了几十遍了!这回一定要总结完毕!
一、从混淆矩阵说起
混淆矩阵 confusion matrix |
我预测的 | |||
正类 | 负类 | |||
实际情况 | 正类 | TP | FN | TP+FN=实际正样本数 |
负类 | FP | TN | FP+TN=实际负样本数 | |
TP+FP=我预测的正样本数 | FN+TN=我预测的负样本数 |
图1 混淆矩阵
❤对于四个格子中的TPFNFPTN可以分成两部分来看:
首字母T/N:表示一种判断,即这种判断是True or False。例如TP,是把正类预测成正类,这个判断是对的,所以是T;例如TN,是把负类预测成负类,也是对的,所以T。
尾字母P/N:表示预测的结果,即预测成Positive or Negative。例如FN,预测结果就是负类N;FP,预测结果是正类P。
继续看混淆矩阵,我们可以知道正对角线上的两个值:TP TN,越大越好,因为这是两个代表判断正确的值,最好的结果就是正对角线上值最大,副对角线上值为0。
❤那么对于TP+FN,FP+TN,TP+FP,FN+TN要怎么快速反映出它代表的是什么呢?以前我总是慢慢推,但现在看来也有规律:
首先看首字母,首字母一定是一个T一个F;
然后看尾字母,如果尾字母不相同,那么就大胆的判断一定是实际情况,否则就是预测情况。例如我可以很快看出TP+FN一定是实际的某类样本数,而TP+FP一定不是实际情况。
既然这个加法算式的首字母一定是一个T一个F,那么我们就继续看T的后面,如果T后是P,那么就是正样本数,如果T后是N就是负样本数。
现在做个例题吧!TP+FN,由于字母没有重合,所以这是实际样本数;因为T后面是P,所以是正样本;总结起来就是TP+FN代表着实际情况中正样本的数量。
二、四大指标
有了TP TN FP FN之后,就可以慢慢推出其他指标,先理性的认识一下,就是看看公式:
精准率(Precision)=TP/(TP+FP) #又叫查准率