Read Data: 0831 |
Publication: CVPR 2021 |
||
Title: Dynamic Head: Unifying Object Detection Heads with Attentions |
|||
Aim: 本文试图在目标探测头呈现出统一的视图。 |
Research Question: 目标检测中定位与分类相结合的复杂性导致了各种方法的蓬勃发展。最近的研究只关注于以scale-awareness, spatial-awareness, task-awareness三种方式解决上述问题中的一个,没有形成一个统一的头脑,同时解决所有这些问题。 |
||
Method: πL(·),πS(·),πC(·)分别表示三个在L,S,C维度的不同attention方法。Scale-aware Attention πL。Spatial-aware AttentionπS:应用另一个基于融合特征的空间感知注意模块,将注意力集中在空间位置和特征层次上一致存在的区分区域上。考虑到S的高维性,将该模块分解为两个步骤:首先使用可变形卷积使注意力学习变得稀疏,然后在相同的空间位置聚合不同层次的特征。Task-aware AttentionπC:首先使用一个全局平均池化对L× S维降维,然后使用两个全连接层和一个归一化层,最后应用移位的sigmoid函数对输出进行归一化[−1, 1]。最后,可以多次嵌套,以有效地叠加多个πL,πS,和πC块在一起, 任何backbone都可以用来提取特征金字塔F,然后将F resize到相同的尺寸,形成3-d tensor F ∈ RL×S×C,然后作为dynamic head的输入,然后几个Dynamic head模块串联堆叠,dynamic head的输出可以为目标检测的不同任务表征。经过backbone提取特征之后,由于ImageNet预训练权重适用域与目标检测不同,可以看到还有许多噪声;经过scale-aware注意力模块之后,特征图对不同尺度变得更加敏感;经过spatial-aware注意力模块之后,特征图变得更加稀疏并且聚焦于不同位置的目标;经过task-aware注意力模块之后,特征图会基于不同的下游任务而形成不一样的激活。 |
|||
Results: 在coco基准上的实验证明了提出的dynamic head框架的有效性,Dynamic head可以统一提高检测器1.2% -3.2%的mAP,相比于EffcientDet和SpineNet,dynamic head仅使用1/20的训练时间,能够实现更好的精度。在ResNeXt-101-DCN backbone上,实现了新的SOTA,54.0AP。更换更强大的backbone:Swin transformer,实现了60.6mAP,COCO基准的新SOTA。 |
Discussion: |
||
Conclusion: 在本文中,我们提出了一种新的目标检测头,它将尺度感知、空间感知和任务感知的注意统一在一个框架中。提出了一种关注目标探测头的新观点。动态头作为一个插件块,可以灵活地集成到任何现有的目标检测器框架中,以提高其性能。 |
Further: 此外,它是有效的学习。我们的研究表明,目标检测头的注意点设计和学习是一个值得关注的研究方向。如何使全注意模型易于学习和高效计算,以及如何系统地将更多的注意形式纳入头部设计以获得更好的性能,这些方面的工作还有待进一步改进。 |
||
Ref:
|