SSF总结
Select, Supplement and Focus for RGB-D Saliency Detection CVPR2020
RGB-D显著性检测的选择、补充和聚焦
1、论文主要研究内容
本文提出了一种基于全局位置和局部细节互补的精确RGB-D显著性检测的新框架。这是通过设计一个互补的交互模块(CIM)来从RGB和深度数据中有区别地选择有用的表示,并有效地集成跨模态特性来实现的。利用所提出的CIM,融合的特征可以精确地定位具有精细边缘细节的显著目标。此外,本文提出了一种补偿感知损失,以提高网络检测复杂样本的可信度。
(1)本文设计了一个互补的交互模块(CIM),以区别地探索跨模态的互补性,并有效地融合跨模态特性。我们的CIM通过区域注意力将这两种模态联系起来,并通过补充丰富的边界信息来加强每一种模态。
(2)本文引入补偿感知损失来提高网络对复杂样本的置信度。为此,所提出的损失进一步帮助我们的网络挖掘跨模态特征中包含的结构信息,确保在具有挑战性的场景中显著性检测的高稳定性。
2、SSF总体架构
此框架中:
1、基于VGG-16的编码器分别从RGB图像和深度图像学习特征表示。
2、VGG-16的每个级别生成显著性边缘预测可以得出3、4、5层能够纯粹和完整的显著性边缘信息。
3、VGG-16的第一层、第二层弃用,从第三层开始,使用高级的边缘细节。
2.1 模型原理
首先,两个基于VGG16的编码器分别从RGB图和深度图中提取特征,然后将这两个提取到的特征输入到CIM模块中,经过CIM模块输出边缘特征和跨模态融合特征,接下来分两步走:将三个尺度的边缘特征输入到边缘解码器中,最后输出的是预测边缘图;将三个尺度的融合特征输入到显著性解码器,输出的是预测显著图。然后使用预测边缘图和真实边缘图,真实图和深度图来计算显著目标的权重,从而监督最终的显著图。
2.2 跨模态注意力单元(CAU模块)
不同模态之间的差距使得多模态特征的线性融合策略对复杂场景的适应性较差。为了解决这个问题,本文提出了一个跨模态注意力单元,其目的是从RGB和深度模态特征中有效地选择有用的信息。
CAU模块原理
首先,将深度映射(0-1)划分为 m 个二值掩码图,以帮助找到有用的区域,用于显著性目标检测。二进制掩码映射和深度映射共享相同的分辨率。
具体来说,对于深度映射,本文将深度区域 ((i-1)/m,i/m) 中的像素设置为1,其他像素设置为 0 以生成 ith 掩码图(映射)。对于 RGB 模态,本文首先生成一个粗略的显著图,即从编码器的第五层通过1×1卷积 (Spr=Conv(Fr5)) 生成一个初始的显著性图。
初始的显著性图输入到RGB模态区域选择中,用来指导深度层的选择,同时,深度图被分为M个二进制掩码,输入到深度模态区域选择中,之后,本文将处理后的特征分别与对应的RGB特征和深度特征进行特征融合,对应元素相乘。将融合后的特征输入到信道级别的注意力机制中,将RGB特征和经过注意力机制的特征进行特征融合连接。同理,将深度特征和经过注意力机制处理后的特征进行特征融合,之后输出刷选之后的RGB特征和深度特征。
2.3 边界补充单元(BSU)
现有的RGB-D显著性检测方法由于存在池化操作而存在边界模糊的问题,难以从深度流中提取边界细节,导致模糊预测。
BSU模块原理:
本单元旨在有效的探索RGB模态编码器高级(VGG16:l3, l4, l5)的边缘细节。本单元设计了一个多尺度的边界特征提取器,该提取器包含四个不同感受野的并行扩张卷积块,然后将得到的互补显著性边缘特征与各层次显著性特征融合。之后,本文在每个模态的CAU和BSU之后连接特征,分别从深度模态和RGB模态生成增强特征Fdout^([l]) , Frout^([l])。
2.4 译码器(Decoder)
译码器模块原理
对于第m层,本文首先采用反向密集连接来实现所有深层特征的跳跃连接。考虑到第m层只学习特定级别的表示,本文使用更深层次的特性来补充第m层的上下文信息。然后将多层特征上采样到128×128的空间分辨率,并将其连接。最终的结果可以使用1×1卷积来生成。
2.5 补偿感知损失
本文提出的CIM模型能有效地增强从位置和边界细节中提取的特征。然而,对于一些复杂的样本,提取的跨模态补偿和边界细节仍然不真实。因此,本文引入了一个定制的损失函数,以更多地关注那些复杂的样本。
补偿感知模块原理
本文利用边界预测作为特权信息来挖掘RGB图像具有挑战性的边界区域。在生成边界预测后,本文生成具有挑战性区域的权值图wb:
在增加权重的过程中,为了使本模型可以适用于那些比较有挑战性的样本,本文针对有挑战性的边缘信息样例和不可靠深度信息样例进行权重增加,将显著性映射图和深度图进行权重增加,将显著性边缘映射图和深度边缘图进行权重增加,之后将增加权重的特征进行特征融合。
3、实验结果分析
结果分析:
本图展示了一个8行11列的显著性检测结果图。
前4行显示具有挑战性的场景,包括透明物体(第1行),多物体(第2行),低对比度场景(第3行),小物体(第4行)。这些结果表明,本文的网络能够在这些具有挑战性的情况下准确捕获显著区域。此外,第5-6行展示了本文的方法在不可靠深度图方面的优越性。在这些场景中,现有的RGB-D方法无法检测到显著部分,被不正确的深度图所误导。另一方面,本文的网络可以通过提出的跨模态注意力单元(CAU)挖掘有用的信息来应对这些场景。此外,本文选择了两个具有复杂显著目标边界的例子(第7-8行),表明本文的模型不仅定位了显著目标,而且分割出了更精确的边界细节。
4、结论
本文努力迎接了更准确的RGB-D显著性检测的挑战,提出了一个新的精确RGB-D显著性检测框架,考虑了两种模式的局部和全局互补性。它包括一个互补的交互模型,该模型由一个跨模态注意力单元和一个边界补充单元组成,以捕获有效的特征,用于定位显著目标和细化边界细节。此外,本文还提出了一种补偿感知损失来提高网络在检测复杂样本时的置信度。
实验结果表明,该方法在6个公共显著性基准上取得了最先进的性能。
综上所述:这篇2020年在CVPR上发表的显著性检测论文:Select, Supplement and Focus for RGB-D Saliency Detection 是一篇很值得研究的论文,其网络结构具有很强的推广性,希望此总结能够帮助大家更好的理解这篇文章!