1.Abstract
最近关于移动网络设计的表明,通道注意力对提升模型性能具有显著的效果(比如:SE attention),但是通道注意力通常忽略了位置信息,这对生成空间选择性注意图很重要。这篇文章提出了一种新型的移动网络注意力机制,将位置信息嵌入到通道注意力中,称为“coordinate attention”。与通过2D全局池化将特征张量转换为单个特征向量的通道注意力不同的是,coordinate attention将通道注意力分解为两个1D特征编码过程,分别沿两个空间方向聚合特征。通过这种方式,可以沿一个空间方向捕获长距离依赖关系,同时可以沿另一个空间方向保留精确的位置信息。然后,将得到的特征图分别编码为一对方向感知和位置感知的注意图,这些注意图可以互补地应用于输入特征图,以增强感兴趣对象的表示。coordinate attention很简单,可以灵活地插入经典移动网络,如MobileNetV2、MobileNeXt和EfficientNet,几乎不需要任何计算开销。大量实验表明,coordinate attention不仅有利于ImageNet分类,而且更有趣的是,它在下游任务中表现得更好,如目标检测和语义分割。
2.Conclusions
在本文中,我们提出了一种新的移动网络轻量级注意机制,称为coordinate attention。coordinate attention继承了通道注意力(如SE attention)的优点,该方法模拟通道间关系,同时利用精确的位置信息捕获长期依赖关系。在图像分类、目标检测和语义分割方面的实验证明了我们coordinate attention的有效性。
3.Introduction
注意力机制,用来告诉模型“What”和“Where”,已经被广泛研究[47,29]。广泛用于提高现代深度神经网络的性能[18,44,3,25,10,14]。然而,它们在移动网络上的应用明显落后于大型网络[36,13,46],这主要是因为大多数注意力机制带来的计算开销对于移动网络来说是无法承受的。
考虑到移动网络的计算能力有限,迄今为止,移动网络最流行的注意机制仍然是SE注意力[18]。它借助2D全局池化计算通道注意力,并以相当低的计算成本提供显著的性能提升。然而,SE注意力只考虑编码通道间的信息,而忽略了位置信息的重要性,位置信息对于在视觉任务中捕获对象结构至关重要[42]。后来的工作,如BAM[30]和CBAM[40],试图通过减少输入张量的通道维数,然后使用卷积计算空间注意力,来利用位置信息,如图2(b)所示。然而,卷积只能捕获局部关系,但无法建模对视觉任务至关重要的长期依赖关系[48,14]。
在本文中,除了第一项工作之外,我们还提出了一种新的有效的注意机制,通过将位置信息嵌入到信道注意中,使移动网络能够在大范围内参与,同时避免产生显著的计算开销。为了减轻由2D全局池化引起的位置信息损坏,我们将通道注意力分解成两个并行的一维特征编码过程,以有效地将空间坐标信息集成到生成的注意力图中。具体来说,我们的方法利用两个1D全局池化操作,分别沿垂直和水平方向将输入特征聚合为两个单独的方向感知特征映射。这两个具有嵌入方向特定信息的特征图随后分别编码为两个注意图,每个注意图捕获输入特征图沿一个空间方向的远程依赖关系。因此,位置信息可以保存在生成的注意图中。然后,通过乘法将两个注意力映射应用于输入特征图,以强调兴趣的表示。我们将提出的注意方法命名为coordinate attention,因为它的操作可以区分空间方向(即坐标)并生成坐标感知的注意图。
Coordinate attention提供了以下优势。首先,它不仅捕获跨通道信息,还捕获方向感知和位置敏感信息,这有助于模型更准确定位和识别感兴趣的对象。其次,我们的方法灵活且重量轻,可以很容易地插入移动网络的经典构建块中,如MobileNetV2[34]中提出的Residual block和MobileNeXt[49]中提出的Sandglass block ,通过强调信息表示来增强特征。第三,作为一个预先训练的模型,Coordinate attention可以为移动网络的下游任务带来显著的性能提升,特别是对于那些预测密集的任务(例如语义分割),我们将在实验部分展示这一点。
为了证明所提出的方法相对于以前的移动网络注意方法的优势,我们在ImageNet分类[33]和流行的下游任务(包括目标检测和语义分割)中进行了广泛的实验。通过相当数量的可学习参数和计算,我们的网络在ImageNet上实现了0.8%的性能增益,分类精度位居前1。在目标检测和语义分割方面,我们还观察到与图1所示的具有其他注意机制的模型相比有显著的改进。我们希望我们简单高效的设计能够促进未来移动网络注意机制的发展。
4.Related Work
在本节中,我们简要回顾了本文的相关文献,包括关于高效网络体系结构设计和注意或非本地模型的前期工作。
4.1 Mobile Network Architectures
最近最先进的移动网络大多基于深度可分离卷积[16]和反向剩余块(inverted residual block)[34]。HBONet[20]介绍在每个倒置的残差块内进行下采样操作,以建模代表性的空间信息。ShuffleNet V2[27]在反向剩余块前后使用通道分割模块和通道混洗模块。后来,MobileNetV3[15]结合神经架构搜索算法[50],搜索最佳激活函数和不同深度反向剩余块的扩展率。此外,MixNet[39]、EfficientNet[38]和ProxylessNAS[2]也采用不同的搜索策略来搜索深度可分离卷积或标量的最佳内核大小,以控制网络在扩展比、输入分辨率、网络深度和宽度方面的权重。最近,Zhou等人[49]重新思考了利用深度可分离卷积的方法,并提出了MobileNeXt,它采用了移动网络的经典瓶颈结构。
4.2 Attention Mechanisms
注意力机制[41,40]已被证明在各种计算机视觉任务中有用,例如图像分类[18,17,44,1]和图像分割[14,19,10]。其中一个成功的例子是SENet[18],它简单地压缩每个2D特征图,以有效地建立通道之间的相互依赖关系。CBAM[44]通过引入大尺寸核卷积的空间信息编码,进一步推进了这一想法。后来的著作,如GENet[17]、GALA[22]、AA[1]和TA[28],通过采用不同的空间注意机制或设计高级注意块来扩展这一思想。
非局部/自注意力网络最近非常流行,因为它们能够建立空间或通道性注意。典型的例子包括NLNet[43]、GCNet[3]、A2Net[7]、SCNet[25]、GSoP Net[11]或CCNet[19],所有这些都利用非局部机制来捕获不同类型的空间信息。然而,由于自注意力模块内部的计算量很大,它们通常被用于大型模型[13,46],但不适用于移动网络。
与这些利用昂贵且沉重的非本地或自我注意块的方法不同,我们的方法考虑了一种更有效的捕获位置信息和通道关系的方法,以增强移动网络的特征表示。通过将2D全局池操作分解为两个一维编码过程,我们的方法比其他具有轻量级属性的注意方法(例如,SENet[18]、CBAM[44]和TA[28])表现得更好。
4.3 Coordinate Attention
4.3.1 Revisit Squeeze-and-Excitation Attention
如[18]所示,标准卷积本身难以对通道关系建模。显式地建立通道相互依赖关系可以提高模型对信息通道的敏感性,这些信息通道对最终分类决策的贡献更大。此外,使用全局平均池化还可以帮助模型捕获全局信息,这是一个缺乏卷积的问题。
在结构上,SE块可以分解为两个步骤:挤压和激励,分别用于全局信息嵌入和通道关系的自适应重新校准。给定输入X,第c个通道的挤压步骤可公式化如下:
其中zc是与第c信道相关联的输出。输入X直接来自具有固定内核大小的卷积层,因此可以被视为本地描述符的集合。挤压操作使收集全局信息成为可能。
第二步,激励,旨在完全捕获通道依赖性,其可表述为
式中·表示通道乘法,表示sigmoid函数,表示变换函数生成的结果,公式如下:
这里,T1和T2是两个线性变换,可以学习它们来捕获每个通道的重要性。
SE注意力已在最近的移动网络中广泛使用[18、4、38],并被证明是实现最先进性能的关键组件。然而,它只考虑通过通道关系来重新评估每个通道的重要性,而忽略了位置信息,正如我们将在第4节中通过实验证明的那样,位置信息对于生成空间选择性注意图非常重要。接下来,我们将介绍一种新的注意块,它同时考虑了通道间关系和位置信息。
4.3.2 Coordinate Attention Blocks
Coordinate Attention编码渠道关系和长期依赖与精确的位置信息分两步:协调信息嵌入和协调注意生成。建议的坐标注意块的示意图可以在图2的右侧找到。在下面,我们将详细描述它。
4.3.2.1 Coordinate Information Embedding
在通道注意中,通常使用全局池对空间信息进行全局编码,但它将全局空间信息压缩到通道描述符中,因此很难保留位置信息,这对于在视觉任务中捕获空间结构至关重要。为了鼓励注意块通过精确的位置信息在空间上捕捉远程交互,我们将全局池分解为等式中的公式。
引入一对1D特征编码操作。具体地说,给定输入X,我们使用两个空间范围的池化核(H,1)或(1,W)分别沿水平坐标和垂直坐标对每个通道进行编码。因此,高度h处的第c通道的输出可以表示为
类似地,宽度w处的第c个信道的输出可以写为
上述两种变换分别沿两个空间方向聚合特征,生成一对方向感知特征映射。这与产生单一特征向量的通道注意方法中的挤压操作(等式(1))大不相同。这两种转换还允许我们的注意块沿着一个空间方向捕获长距离依赖关系,并沿另一个空间方向保留精确的位置信息,这有助于网络更准确地定位感兴趣的对象。
4.3.2.2 Coordinate Attention Generation
如上所述,等式(4)和等式(5)启用全局接收场并对精确的位置信息进行编码。为了利用产生的表达表征,我们提出了第二种转换,称为坐标注意力生成。我们的设计参考了以下三个标准。首先,关于移动环境中的应用程序,新的转换应该尽可能简单和便宜。其次,它可以充分利用捕捉到的位置信息,以便能够准确地突出显示感兴趣的区域。最后但并非最不重要的一点是,它还应该能够有效地捕捉渠道间的关系,这在现有研究中已被证明是至关重要的[18,44]。
具体来说,给定由等式(4)和等式(5)生成的聚合特征映射,首先将它们串联起来,然后将它们发送到共享的1×1卷积变换函数F1,得到
其中,[·,·]表示沿空间维度的串联操作,δ是非线性激活函数,f是在水平方向和垂直方向上编码空间信息的中间特征地图。这里,r是用于控制如SE块中的块大小的缩小比。这里,r是用于控制如SE块中的块大小的缩小比。利用另外两个1×1卷积变换Fh和Fw分别将Fh和Fw变换成具有相同通道数的张量,得到输入X。
回想一下,是sigmoid函数。为了降低开销模型的复杂性,我们通常使用适当的缩减率r来减少f的信道数。我们将在实验部分讨论不同还原率对性能的影响。然后将输出gh和gw分别展开并用作注意权重。最后,坐标注意块Y的输出可以写成
讨论与只关注不同通道重要性的通道注意不同,我们的协调注意块还考虑编码空间信息。如上所述,沿水平和垂直方向的注意力同时应用于输入张量。两个注意力映射中的每个元素都反映了相应行和列中是否存在感兴趣的对象。这种编码过程允许我们的协调注意力更准确地定位感兴趣对象的确切位置,从而帮助整个模型更好地识别。