接上文
Deformable Transformer论文笔记(1)-****博客https://blog.****.net/Zssss12/article/details/142564883?spm=1001.2014.3001.5501
Deformable Transformer Encoder.我们用提出的多尺度可变形注意模块替换DETR中处理特征映射的Transformer注意模块。编码器的输入和输出都是具有相同分辨率的多尺度特征图。在编码器中,我们从 ResNet (He et al., 2016) 中阶段 C3 到 C5 的输出特征图中提取多尺度特征图 {xl}l=1->L-1 (L = 4)(各层特征最终再由 1 × 1 卷积转换),其中 Cl 的分辨率比输入图像低 2^l倍。最低分辨率的特征图x^L是通过最终C5阶段的3 × 3步幅2卷积得到的,记为C6。所有多尺度特征图均为C = 256个通道。请注意,没有使用 FPN (Lin et al., 2017a) 中的自顶向下结构,因为我们提出的多尺度可变形注意力本身可以在多尺度特征图之间交换信息。多尺度特征图的构建也在附录 A.2 中进行了说明。 5.2 节中的实验表明,添加 FPN 不会提高性能。
在编码器中多尺度可变形注意模块的应用中,输出是与输入具有相同分辨率的多尺度特征图。键元素和查询元素都来自多尺度特征图的像素。对于每个查询像素,参考点本身。为了确定每个查询像素所在的特征级别,除了位置嵌入之外,我们还在特征表示中添加了尺度级嵌入,表示为 el。与具有固定编码的位置嵌入不同,尺度级嵌入 {el}L l=1 随机初始化并与网络联合训练。
(这里说的尺度级embedding说的对应了文中提到的多尺度可变形注意力)
Deformable Transformer Decoder.
解码器中有交叉注意力和自注意力模块。两种类型的注意力模块的查询元素都是对象查询。在交叉注意模块中,对象查询从特征图中提取特征,其中 键元素是来自编码器的输出特征图。在自我注意模块中,对象查询彼此交互,其中键元素是对象查询。由于我们提出的可变形注意模块被设计为将卷积特征映射处理为键元素,我们只将每个交叉注意模块替换为多尺度可变形注意模块,同时保持自我注意模块不变。对于每个对象查询,参考点ˆpq的2d的归一化坐标通过可学习的线性投影和 sigmoid 函数从其对象查询嵌入中预测。
由于多尺度可变形注意模块提取参考点周围的图像特征,我们让检测头预测边界框对于参考点的相对偏移量以进一步降低优化难度。参考点被用作预测框中心的初始猜测。检测头预测预测框相对于参考点的相对偏移量。有关详细信息,请参阅附录 A.3。这样,学习到的解码器注意力将与预测的边界框有很强的相关性,这也加速了训练收敛。
通过将Transformer注意模块替换为DETR中的可变形注意模块,我们建立了一个高效、快速收敛的检测系统,称为可变形DETR(见图1)。
4.2 ADDITIONAL IMPROVEMENTS AND VARIANTS FOR DEFORMABLE DETR
由于其快速收敛和计算和内存效率,可变形 DETR 为我们利用端到端对象检测器的各种变体开辟了可能性。由于空间有限,我们在这里只介绍这些改进和变体的核心思想。实现细节在附录 A.4 中给出。
Iterative Bounding Box Refinement.这是受到光流估计中开发的迭代细化的启发(Teed & Deng, 2020)。我们建立了一种简单有效的迭代包围盒细化机制来提高检测性能。在这里,每个解码器层根据前一层的预测来细化边界框。
Two-Stage Deformable DETR.在原始 DETR 中,解码器中的对象查询与当前图像无关。受两级目标检测器的启发,我们探索了可变形 DETR 的一种变体,即生成区域提议作为第一阶段。生成的区域建议将被送入解码器作为对象查询进行进一步细化,形成两阶段可变形DETR。
(这里的红字也引出了一系列的后续工作 比如Efficient DETR,DAB-DETR等等。。)
在第一阶段,为了实现高召回率的建议,多尺度特征图中的每个像素都将作为对象查询。然而,直接将对象查询设置为像素会给解码器中的自我注意模块带来不可接受的计算和内存成本,其复杂性与查询的数量成二次增长。为了避免这个问题,我们删除了解码器,并形成了用于区域提议生成的仅编码器可变形 DETR。其中,每个像素都被指定为对象查询,它直接预测边界框。选择得分最高的边界框作为区域建议。在将区域建议馈送到第二阶段之前,没有应用NMS。
参考文献
Deformable DETR| 3、Deformable Attention、MSDeformAttention、流程讲解_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Uj411z7QU/?spm_id_from=333.788&vd_source=ae3f1ec4d3d413e8531d6bbc07cd4394