预测 | |||
P | N | ||
实际 | P | TP | FN |
N | FP | TN |
结合着上图来看下面的解释:
首先这几个术语会高频率得出现在论文的实验部分,它是对实验结果的描述,首先我想先解释这几个缩写的含义:
- FN:False Negative,被判定为负样本,但事实上是正样本。
- FP:False Positive,被判定为正样本,但事实上是负样本。
- TN:True Negative,被判定为负样本,事实上也是负样本。
- TP:True Positive,被判定为正样本,事实上也是证样本。
这里的正样本和负样本与检索的关系就是:
你认为为正样本的应该都出现在检索结果中,而你认为为负样本的应该不出现在检索结果中,但是你认为的和事实上的会有不一样。
这里的四个缩写曾经一度让我很难记住,经过细想,发现这样比较好记忆:
把缩写分为两个部分,第一个字母(F,T)和第二个字母(P,N)。
首先搞清楚第二个字母,即它是你认为该样本的归属应该是怎样(Positive or Negative);
第一个字母即是对你的判断进行的评价(False or True)。
这里也许中文可能会有不好理解的地方,所以我想用英文来描述,可能更清晰:
第二个字母:What's your judgement about the sample?;
第一个字母:Is your judgement right(true) or not(false)?
precesion:查准率(精确率),即在检索后返回的结果中,真正正确的个数占整个结果的比例。
recall:查全率(召回率),即在检索结果中真正正确的个数 占整个数据集(检索到的和未检索到的)中真正正确个数的比例。
那么有:
precesion = TP/(TP+FP) 即,检索结果中,都是你认为应该为正的样本(第二个字母都是P),但是其中有你判断正确的和判断错误的(第一个字母有T ,F)。
recall = TP/(TP+FN) 即,检索结果中,你判断为正的样本也确实为正的,以及那些没在检索结果中被你判断为负但是事实上是正的(FN)。