CIDEr: Consensus-based Image Description Evaluation
时间:2015
Intro
- 自动度量 description of an image 的困难
- 提出了consensus-based 的度量协议:CIDEr
Approach
给定一副图片和一系列人给出的描述,我们的目标是估计candidate和大多数ground truth的相似性
直观来说,为了度量consensus,需要找到candidate中的n-gram在reference中出现的频率,同时,不在reference中的n-gram不应该出现在candidate中,且频繁出现在数据集中的n-gram权值应该更低,因为它们代表性更差(less informative),因此,我们通过TF-IDF来加权n-gram,n-gram wk出现在referencesij中的次数记作hk(sij)或hk(ci),其中ci是candidate,计算公式如下
其中Ω是所有n-gram的集合,∣I∣是图片集合,第一项是TF第二项是IDF
长度为n的n-gram的CIDErn计算为candidate和reference的平均余弦相似度,这同时计算了precision和recall
其中gn是gk组成的向量,综合所有长度的n-gram,计算
最终,我们发现wn=1/N最好,我们取N=4
CIDEr-D
为了抵抗一些’gaming’样本,在原始的CIDEr上要做一些改进:
- 去掉stemming,stemming就是将词根相同的词变成一个词
- 因为CIDEr会给一些包含重复高置信度的词的句子打高分,所以加入高斯惩罚,它基于candidate和reference的句长差异
- 最后,第二个改动可能会被重复产生高置信度的词到句长这一方法破除,所以,我们利用clipping来解决这个问题,将candidate中n-gram出现次数超过reference中最高次数的clip掉,最后的结果是
l代表句子的长度,我们取σ=6,最后的综合计算公式和之前的CIDEr一样
Idea
- 度量相似度相比度量candidate对reference的recall和precision是更加客观的,因为它是对称的度量
- BLEU 是基于precision的度量,ROUGH是基于recall的度量
- BLEU的key idea是compute precision by clipping
总结
本文提出了一个consensus-based自动度量准则,这个准则能够客观比较candidate和reference的差异,无需特别依赖内容加权、语法和显著性特征。