Interactive Image Segmentation with First Click Attention简读

文章目录

Interactive Image Segmentation with First Click Attention简读

摘要

在交互式图像分割任务中,用户首先点击一个点对目标物体的主体进行分割,然后在错误标记的区域迭代提供更多的点,以实现精确的分割。现有的方法不加区别地对待所有的交互点,忽略第一次点击和其他点击之间的区别。在本文中,我们演示了第一次点击对于提供目标对象的位置和主体信息的关键作用。为了更好地利用这一特性,提出了一个名为First Click Attention Network (FCA-Net)的深度框架。

论文的贡献

  • 这是演示第一次单击的关键作用的第一个工作。我们也提出一个FCA-Net,它配备了一个简单而有效的模块,用于利用第一次点击的引导信息。
  • 我们提出了考虑用户注释的点击损失和结构完整性策略,有助于交互式分割任务。
  • 5个数据集的最新结果表明了第一次点击的重要性,以及FCA-Net、点击损失函数和结构完整性策略的有效性。

方法

Interactive Image Segmentation with First Click Attention简读

Basic Segmentation Network

我们采用了通用的FCN架构,其特定的结构类似于DeepLab v3+。

如上图所示,它包含三个部分:骨干网、Atrous空间金字塔池(ASPP)模块和解码器模块。

为了在交互分割中捕获多尺度对象,我们在ResNet101的最后阶段也采用了扩大卷积,而不是采用stride作为2。

主干网的输入是将RGB图像与两个带正点和带负点的高斯图连接起来。高斯映射是根据欧氏距离映射计算的。

First Click Attention Module

为了利用第一次点击的引导信息,我们设计了一个简单的模块和基本的分割网络。

它以低级特征F1和以第一次点击为中心的高斯映射Mf作为输入。

将连接的特征(f1⊕M F)输入至6个3 × 3的卷积层。
Interactive Image Segmentation with First Click Attention简读
我们可以看到,无论在哪里,第一次点击都能吸引更多的注意力,起到分割锚点的作用,而其他点则是对细节修复起辅助作用。与对交互点的平等处理相比,FCA的引入使模型的工作更符合真实的用户交互行为。

Click Loss

为了在下面的部分中更好地解释,我们在这里定义了一些符号和操作。

所有像素都用G来表示,我们根据ground truth mask使用Gp和Gn来表示前景和背景像素集。

A表示所有注释点。Ap和An分别代表正点和负点。

我们用d(p1, p2)来表示点p1和点p2之间的欧氏距离。我们用φ(p,S)表示从点p到另一个区域的最短距离
S,定义为:
Interactive Image Segmentation with First Click Attention简读
在二值分割的任务中,我们通常使用二元交叉熵(BCE)作为损失函数来监督神经网络。损失函数有利于关注全局分割质量。在交互式细分任务中,我们更希望看到用户交互能够起到指导作用。因此,我们设计了一个基于用户交互的损耗函数,以帮助FCA-Net获得更好的性能。

点击损失可以看作是一种加权的二元交叉熵损失。传统的二元交叉熵损失函数可以表示为:Interactive Image Segmentation with First Click Attention简读
其中,xp表示预测掩码中p点的概率,yp表示ground truth掩码中p点的标记(0或1)。

首先,我们定义一个函数ψ来表示点p与一组带注释的集合之间的距离权。
Interactive Image Segmentation with First Click Attention简读
其中τ为每个注释点的影响范围。

对于损失函数来监督最终的预测,我们提出了一个称为一般点击损失(L g)的损失,它考虑了所有的点击,其公式如下:
Interactive Image Segmentation with First Click Attention简读

Structural Integrity Strategy

通过实验,我们发现神经网络的预测掩模可能包含一些错误结果的分散区域。在交互分割的任务中,人们往往更倾向于得到保持结构完整性的对象掩码。因此,我们提出了一种基于交互点来保持分割结构完整性的策略。

通常我们取0.5作为阈值,从神经网络的输出得到最终的二值化掩码。让P表示这些被预测为前景的点。我们将根据交互点对这些预测区域进行后处理,得到新的p0,公式如下:
Interactive Image Segmentation with First Click Attention简读
当p1点到p2点有八条连通路径时,σ(p1, p2) = 1。结构完整性策略在大多数情况下都可以工作。
Interactive Image Segmentation with First Click Attention简读

结论

在这篇文章中,我们探索和演示了第一次点击对交互式分割的重要性。我们提出了一个FCA-Net,在基本的隔离网络上增加一个简单的模块,将更多的注意力转移到第一次点击上。我们还提出了一种有效的基于点击的fca网损失函数,以及一种新的策略来保持预测掩码的完整性。超过5个数据集的最先进的性能显示了第一次点击的重要性和我们的方法的优越性。

上一篇:[深度学习论文解读] U-Net: Convolutional Networks for Biomedical Image Segmentation (用于生物医学图像分割的卷积网络)


下一篇:论文阅读笔记03:(R-CNN)Rich feature hierarchies for accurate object detection and semantic segmentation