精度评定中的准确率(Precision)和召回率(Recall)
在模式识别中,我们经常会使用到一些指标对目标识别或者影像分类的结果进行评价。
假设我们需要将一个样本集分类为苹果和非苹果两类,那么分类结果有四种情况:
第一种情况:True Positive,本来就是苹果被分类成苹果;
第二种情况:False Positive,本来不是苹果被分类成苹果;
第三种情况:False Negative,本来是苹果被分类成非苹果;
第四种情况:True Negative,本来不是苹果被分类成为非苹果。
True是指分类正确,False是指分类错误。
Positive是指被分类器分为苹果(正样本),Negative是指被分类器分为非苹果(负样本)。
这里我们引入三个指标来对分类器进行评价:
(1)准确率(Precision),又称“精度”、“正确率”;
(2)召回率(Recall),又称“查全率”;
(3)F1-Score,准确率和召回率的综合指标。
一般来说,准确率和召回率反映了分类器性能的两个方面,单一依靠某个指标并不能较为全面地评价一个分类器的性能。
假如分类器只将苹果特征十分明显、是苹果的概率非常高的样本分为苹果,其余的样本分为非苹果,此时该分类器的准确率就会非常的高,但是它因为将所有疑似苹果都错误分为非苹果,召回率变得非常低。
假如分类器将所有可能为苹果的样本全部划分为苹果,其余的样本为非苹果,此时该分类器的召回率会非常之高,但是它因为将所有可能为苹果的样本分为苹果时引入了许多错误,准确率不可能高。
引入F1-Score作为综合指标,就是为了平衡准确率和召回率的影响,较为全面地评价一个分类器。
有时候考虑到不同的需求,可能会更看重准确率或者召回率。这时我们可以引入F2-Score和F0.5-Score。包括F1-Score,这三个指标都来自以下定义,只是参数不同。
其中,F1-Score是指准确率和召回率一样重要;
F2-Score是指召回率比准确率重要一倍;
F0.5-Score是指准确率比召回率重要一倍