Squeeze-and-Attention Networks for Semantic Segmentation

2024-01-01 23:51:22

CVPR 2020

Motivation

1. 以前的分割网络都是只关注像素级别的预测，忽略了像素分组。但本文认为语义分割可以分为explicit pixel-wise prediction and implicit pixel grouping. 。为了解决像素分组的问题，论文引入了SA model，并且其结果还可以更好的指导像素的预测

2. 受Squeeze-and-Excitation Networks【SENet】的启发，该文中SANet扩展SENet并引入了channel attention通过通道之间的相关性把重要的特征增强，不重要的特征减弱，从而让提取的特征指向性更强。

（1）SA模块的注意通道采用平均池化的方法下采样本特征图，得到的是attention convolution channel，然后再上采样到主干网络中，【上采样的目的是为了和RESNet有相同的维度】

（2）SE model不能保持spatial information,而SA model以扩张的FCN作为主干网络，增加了spatial features来进行pixel level prediction【SA保留了spatial information】

Model

w(欧米伽)用于重新标定输入的feature map通道的学习权重。【怎么重新标定的呢？见下图】

备注：1、蓝色-Squeeze操作，Global average pooling用来计算channel-wise的统计量；粉色-Excitation操作；黄色-Reweight操作；

可以看到作者语义分割网络一共三个损失，其中Lmask 和Lden计算每个像素的分类损失并求平均，也就是经典的语义分割损失。而Lcat计算的是图像多标签二分类的分类损失

1. 论文作者没有提到用Sigmoid或Softmax计算注意力，而是直接用卷积结果作为注意力

2.grouping在哪里体现？感觉本质上还是per-pixel classification，只是从softmax变成了每类的二分类。