前言
这是一篇2018年发表在CS上的论文,原文地址点这里
笔记
- 这篇文章主要的贡献有两个,一是在原来HICO数据集的基础上增加了instance annotation,即动-名词对的文字注释。二是提出了HO-RCNN网络。
- 注释部分没有什么好说的,比较有趣的是HO-RCNN网络,图三就是网络的结构,从图上来看,输入的图片被分成了三路,经过裁剪resize之后通过CNN提取特征,最后分别分类得到的损失相加作为最终整个网络的损失,以此来训练整个网络。
- 关键的地方在于网络的输入部分,三个支路简单来说就是一张图片的人物、物体、人物+物体。送进网络的其实就是先在一张图中框出人和物体,然后将人物框、物体框、人物-物体对框,但是由于要检测图片中的human-object region pairs,如果要是采用之前faster rcnn那种区域建议自动生成框的方式,就会大大增加候选框的个数,因为每个检测框都有可能和其他检测框进行配对。所以这里作者采用分别检测人和物体,然后取两者得分最高的框配对。
- 关于添加的human-object region pairs框作者解释说最主要是要利用human和obj的spatial relation,因此这两个框在输入的时候会忽略其像素值,并且按照一定的规则转化为二值图像。同时为了突出目标区域,作者还提出了两种获取attentiono window的方法,图片上描述的很清楚,一种不会导致box的ratio改变,一种会改变ratio。
- 后边作者做了实验,有趣的是作者采用了和上一篇论文笔记相似的假定,默认是全部测试图片,另一种设置是假定已经知道了物体。关于训练,作者描述是在MS-COCO上训练的fast rcnn作为检测器,每张图片取得分最高的前10个物体框和人框,然后这样配对每张图片有100个human-object region pairs。优化器使用的SGD,学习率在前100K次迭代为0.001,后50K是0.0001,同时采用了和fast rcnn中同样的采样策略。
- 在实验部分有一个词汇叫做Ablation Study,我不大清楚,在上网查了相关资料之后,有一段英文解释我举得特别清楚:An ablation study typically refers to removing some “feature” of the model or algorithm, and seeing how that affects performance.。
- 再后边就是作者的一些实验结果,分别是采用两路以及paddingor不padding,然后在两种设置条件下的结果,需要注意的是,这里的评价结果除了mAP,还有一个paired t-test即配对样本T检验,原因是因为作者在测试集上得到的结果都很低,大多都在10个点左右。但是作者想要突出在某些变量的影响下,即使在如此低的mAP上,其提出的the core of HO-RCNN is the Interaction Pattern, a novel DNN input that characterizes the spatial relations between two bounding boxes.对于提升结果也是有显著影响的(P值小于0.05)。最后作者还分析了一些其中错误的原因以及对比了和先前的一些方法。
- 总结:本文作者的目标是学习检测静态图片中的人物交互,主要贡献有:提出了一个HICO-DET数据集,提出了HO-RCNN网络,并且通过实验证明了其网络输入的核心,两个框之间的空间关系,对于显著提升模型性能是很有帮助的。