CIDEr: Consensus-based Image Description Evaluation

CIDEr: Consensus-based Image Description Evaluation

原文地址

时间:2015

Intro

  • 自动度量 description of an image 的困难
  • 提出了consensus-based 的度量协议:CIDEr

Approach

给定一副图片和一系列人给出的描述,我们的目标是估计candidate和大多数ground truth的相似性

直观来说,为了度量consensus,需要找到candidate中的n-gram在reference中出现的频率,同时,不在reference中的n-gram不应该出现在candidate中,且频繁出现在数据集中的n-gram权值应该更低,因为它们代表性更差(less informative),因此,我们通过TF-IDF来加权n-gram,n-gram wkw_kwk​出现在referencesijs_{ij}sij​中的次数记作hk(sij)h_k(s_{ij})hk​(sij​)或hk(ci)h_k(c_i)hk​(ci​),其中cic_ici​是candidate,计算公式如下
CIDEr: Consensus-based Image Description Evaluation
其中Ω\OmegaΩ是所有n-gram的集合,I|I|∣I∣是图片集合,第一项是TF第二项是IDF

长度为n的n-gram的CIDErnCIDEr_nCIDErn​计算为candidate和reference的平均余弦相似度,这同时计算了precision和recall
CIDEr: Consensus-based Image Description Evaluation
其中gn\mathbf{g^n}gn是gkg_kgk​组成的向量,综合所有长度的n-gram,计算
CIDEr: Consensus-based Image Description Evaluation
最终,我们发现wn=1/Nw_n=1/Nwn​=1/N最好,我们取N=4N=4N=4

CIDEr-D

为了抵抗一些’gaming’样本,在原始的CIDEr上要做一些改进:

  • 去掉stemming,stemming就是将词根相同的词变成一个词
  • 因为CIDEr会给一些包含重复高置信度的词的句子打高分,所以加入高斯惩罚,它基于candidate和reference的句长差异
  • 最后,第二个改动可能会被重复产生高置信度的词到句长这一方法破除,所以,我们利用clipping来解决这个问题,将candidate中n-gram出现次数超过reference中最高次数的clip掉,最后的结果是
    CIDEr: Consensus-based Image Description Evaluation
    l代表句子的长度,我们取σ=6\sigma=6σ=6,最后的综合计算公式和之前的CIDEr一样

Idea

  • 度量相似度相比度量candidate对reference的recall和precision是更加客观的,因为它是对称的度量
  • BLEU 是基于precision的度量,ROUGH是基于recall的度量
  • BLEU的key idea是compute precision by clipping

总结

本文提出了一个consensus-based自动度量准则,这个准则能够客观比较candidate和reference的差异,无需特别依赖内容加权、语法和显著性特征。

上一篇:mybatis的批量插入


下一篇:mysql5.7修改数据库密码&开通外界访问