论文题目:《Improving Object Localization with Fitness NMS and Bounded IoU Loss》
发现这篇文章网络上资源较少,来写一下自己看完这篇文章的一些想法,可能不成熟,欢迎指正。谢谢!
本文对于NMS进行了改进,提出了一个叫Fitness NMS的模块,在DeNet基础上进行的改进。
文章介绍了一下nms,这里 也简单写一下:
这里score(.)函数用来评价选择bbox的置信度,而same(.)用来检测两个框的iou值。因此算法的核心思想就是:对于Bounding Box的列表B及其对应的置信度S,采用下面的计算方式.选择具有最大score的检测框M,将其从B集合中移除并加入到最终的检测结果D中.通常将B中剩余检测框中与M的IoU大于阈值Nt的框从B中移除.重复这个过程,直到B为空.
本文就是对于上述的score及same函数进行了修改来得到一个新的nms。
作者先做实验对比了train和test采用不同iou阈值时的map表现结果:
结果可以看到只有当训练和测试选择iou阈值一致时输出的结果才比较好,而且0.5表现出来的map最高,这便引出了本文想要解决的问题:并不是要选择所有超过该阈值的所有bbox,而是要选择最高的一个。
- Detection Clustering
实验发现,提升matching iou 不使用nms和使用的两种情况下的召回值gap越来越大。这说明在roi预测阶段预测出来的一些对正样本在nms阶段被舍弃掉。单纯的使用nms是次优的选择,因为DeNet在训练中使用单一的matching iou值,使得它对于与GT不同iou值的bbox一视同仁(0.5,0.9),而这并不是一个最优的discriminator。
- Fitness NMS
作者首先提出了一个新的公式,对于score函数进行了增强:
加上的E函数指的是你的bbox和GT重叠iou的期望值。作者加上E的实际目的就是为了对于与GT IOU值打的bbox对他进行score值放大。
原文给出了f的计算公式:
及E的计算公式:
其中,λn指的是最小iou覆盖。那么 如何求得公式中的Pr(fj)呢,这里作者给出了两种方法:
Independent Fitness
认为Pr(fj)与类别无关。将DeNet的预测层替换为预测Pr,这时我们便可以得到C+F+2个输出。
Joint Fitness
输出CF+1个量。
后面的ablation实验证明了上述方法的有效性:
这块有些不太理解:对于某个bbox,他与GT的fj不是一个定值吗,那后面的求和操作是怎么来的呢?还是通过网络输出的不同的fj对应的值是对于某个bbox iou的一个估计值?? 这里感觉需要看源代码。
最后作者还加了一个与soft nms适配性的实验,发现是可以双向并行的。
- Bounding Box Regression
由于DeNet的角点采样提升了roi采样的准确性,许多人认为这部分的改进没有必要,作者这里则也进行实验给出了其必要性:
作者认为改进bbox regression 算法确实不是首要的 但是它与前面nms算法的改进相适配,会大幅提升recall。
新提出的算法则是为了最大化roi与GT的iou并可以提供一个良好的梯度下降值。
上述公式为新提出的iou计算公式。
作者认为maximum IOU,应该设计一个更大的cost函数。同时作者给出了一个近似的函数:
烧烛实验如上所示。。
后面作者还对于在bbox层面还是在conner distribution 层面进行nms操作得到的结果进行了一定的对比。
最后的结果 以上。
最后写写我的感想,我觉得作者在本文的主要工作实际上只有两项:增大score的值和增大same求出的iou值。让分类器能更加重视负样本的loss及对于与GT iou重叠大的bbox 在classification 和 regression过程中起到更加大的作用