ECCV 2018
Shuhan Chen, Xiuli Tan, Ben Wang, Xuelong Hu
论文地址
一、简介
为解决显著性目标检测任务存在的输出分辨率低和模型参数量过大的问题,本文提出了一种精确而紧凑的深度网络。
首先,使用残差网络学习侧向输出残差特征来进行显著性细化,其次,我们提出了反向注意,以自上而下的方式引导侧向输出残差特征。通过从侧面输出特征中删除当前预测的显著区域,网络可以最终发现丢失的对象部分和细节,从而获得高分辨率和准确率。
二、方法
2.1 架构
模型使用VGG作为主干网络,将{conv1_2,conv2_2,conv3_3,conv4_3,conv5_3}作为侧边输出,到pool5为止。首先将pool5的输出用1×1卷积降维为256,然后添加3层5×5的卷积层来捕获全局显著性maps。由于全局显著maps的分辨率仅为输入图像的1/32,因此,我们进一步学习各边输出的残差特征,以逐步提高其分辨率。具体地说,在侧向输出通道嵌入反向注意块,后接D个3×3,通道数为64的卷积层进行学习。
侧边输出的卷积层和全局显著的卷积层配置如下所示:
2.2 侧向输出残差学习
深层网络获取高层语义信息,但是细节很少,浅层网络则相反。基于这一观察结果,多层次特征融合是捕捉其互补线索的常用选择,但当与浅层特征相结合时,会降低对深层的可信度预测。
我们使用残差学习来弥补预测显著maps与ground truth之间的误差。具体地说,残差特征是通过对设计的残差单元的输入和输出应用深度监督来学习的。公式如下所示:
这样的学习继承了良好特性。其一,残差单元在不同尺度上的预测与ground truth之间建立了快捷联系,使其容易弥补误差,具有较高的尺度适应性。其二,在相同的监督条件下,残差单元的输入和输出之间的误差较小,因此可以用较少的参数和迭代更容易地学习。最极端的是,如果预测足够接近地面事实,误差大约等于零。因此,构建的网络可以非常高效和轻量级。
2.3 自上而下反向注意
该模块的设计是为了捕获细节信息。我们提出了一种基于反向注意力的边输出残差学习方法,用于渐进式扩展目标区域。该方法从语义置信度较高但分辨率较低的最深层生成粗略的显著图开始,通过从侧面输出特征中删除当前预测的显著区域,从而引导整个网络依次发现补充对象区域和细节,其中当前预测是从更深一层上采样的。这种自上而下的擦除方式最终可以将粗略和低分辨率的预测细化为具有这些探索的区域和细节的完整的高分辨率显著图。
上图显示了该网络在反向注意的帮助下,很好地捕捉到了物体边界附近的残留细节。在没有反向注意的情况下,它学习了物体内部的一些冗余特征,这对显著性求精是无能为力的。
2.4 监督
2.5 区别
虽然共享相同的名称,所提出的网络与反向关注网络的显著不同,其施加反向注意重量与目标类无关的预测,以这种方式放大困惑区域中的反向级响应,因此,可以帮助原始分支做出正确的预测。在我们的方法中,反向关注的使用完全不同。它用于擦除深层的自信预测,可以指导网络有效地探索丢失的对象区域和细节。