Abstract
- 由于之前的监督学习仅针对神经网络中的输出结果进行预测,因此隐藏层特征通常无法学习到3D分割的信息表达,然而这个问题可以通过对中间层的多尺度监督来解决。
- 在本文中,作者首次提出了基于渐进感受野分量推理(RFCR)的全尺寸监督点云分割方法,其中目标感受野局部区域编码 (RFCCs)的目的是记录编码器中隐藏单元的感受野区域的类别。然后目标RFCCs将监督解码器以从粗到细的类别推理方式逐步推断RFCC,最终获得目标语义标签。
- 由于许多隐藏层特征不活跃,并且对RFCC预测的贡献很小,因此作者提出了一种具有离心趋势的特征密集化以获取更明确的特征,这实际上相当于对特征进行熵值的正则化。更多活跃的特征可以进一步释放全尺度监督方法的潜力。
Introduction
- 在以前典型的编码-解码架构中,网络仅对最后一层的点进行监督,然而这忽略了其他层的隐藏单元,缺乏直接监督来提具有信息量的特征。换句话说,多尺度/全方位的监督是必要的。
- 与2D图像不同,由于点云的不规则性,采样点与原始点云之间没有固定的映射关系,很难将点云通过简单的平铺或插值将隐藏特征上采样到原始分辨率。此外,使用常用的最近邻上采样方法无法追踪编码关系,从而对中间特征引入了不正确的监督。
- 为了解决上述问题,作者提出了一种通过渐进感受局部区域推理的全方位监督方法。作者没有将隐藏特征上采样到原始分辨率,而是设计了一个感受局部区域代码(RFCC)来有效地跟踪编码关系并表示每个隐藏单元的感受区域的类别。从而实现在所有尺度上监督网络。具体来说,在解码阶段,目标RFCCs将监督网络以预测不同尺度的RFCCs,这个过程就变相理解为就一个渐进的推理过程。
- 此外,作者为了进一步释放全尺度监督的潜力,提取更多的活跃特征(即具有较大量级的特征)来实现RFCC预测,作者又提出了一种潜在函数的特征密集化方法,该潜在特征实际上相当于特征的一个熵损失计算。
Method
Overview
Receptive Field Component Code(RFCC)
-
在原始点云中标记一个点的标签是容易的。然而,给任何从其感受野内接收信息的下采样点云中的一个点贴上标签并不容易。因此作者设计了RFCC来表示编码器中采样点感受野内的所有类别。
-
在编码阶段,目标RFCCs与特征的卷积和采样一起生成。换句话说,在编码阶段(图2中顶部分支的左侧部分)和RFCC生成阶段(图2(a))之间共享采样,因此,即使在点云的采样是一个随机过程情况下,生成的目标RFCCs依然可以精确地记录感受野中的类别成分。
-
RFCC的目的是为编码器的任意一层中的每个点设计多热标签。具体来说,在语义分割任务中,我们需要将每个点分类为 \(C\) 个类别,RFCC则是为每个点设计一个 \(1×C\) 的二进制向量。
-
给定编码器第\(l\)层中第\(i\)个点 \(p_i^l\),目标RFCC \(g_i^l\) 表示存在于 \(p_i^l\) 感受野中的对象类别,每个元素 \(g_i^l[k]\) 表示类别k的存在。基于这个定义,首先将输入点的one-hot标签分配给输入层中的RFCC \(g_i^1\),因为 \(p_i\) 的感受野只包含 \(p_i\) 本身:
-
如图2(a)所示,我们可以沿着RFCCs中3D Convs的前一层 \(g^{l-1}_i\)获得 \(g^l_i\):
其中,\(k\epsilon [1,C]\),\(j\)是第\(l-1\)层第\(i\)点感受野区域中的点索引。
-
值得注意的是,RFCC的生成只发生在编码器中,而不是解码器中。迭代RFCC的生成,直到到达最中心的层L。通常情况下,当最中心的层只包含一个点[37]时,场景描述符只是一个自然推导的全局管理器。
RFCC Reasoning
-
网络的解码器是在语义分割任务中推断每个输入点的类别。在本文中,作者将这个问题分解成更简单的全局上下文识别问题(预测\(g_i^L\)) 和一系列渐进接受域分量推理问题(从\(g_i^l\)逐步推理\(g_i^{l-1}\),在从跳过链接推理附加特征\(\alpha_i^l\),最终得到语义标签\(g_i^1\))。
-
如图二所示,\(\beta_i^l\)是解码器中采样点\(p_i^l\)的特征。对于除最后一层之外的每一层译码器,应用一个共享的MLP \(M_l\)和一个sigmoid函数\(\sigma\)应用于\(\beta_i^l\)以预测RFCCs \(\tilde{g}_i^l\):
-
然后,在编码阶段生成的目标RFCC \(g_i^l\)直接用于通过逐层监督 \(L_R^l\) 引导\(\tilde{g}_i^l\)的预测:
其中, -
整个RFCC推理损失可以简单表示为:
Feature Densification
-
由于接受场分量推理引入了大量的监督,更主动的特征和明确的信号是必需的。然而,传统网络中存在着许多量级很小的非活跃隐藏单元。因此,作者引入了离心势,使正特征与负特征之间产生低密度分离(即推离0),如图二(c)所示:
-
可以看到势函数在特征上的负梯度是:
上式具有与特征相同的符号。这表明此时积极特征将变得更大,而消极特征将变得更小。此外,根据此公式,绝对值较小的特征将获得较大的梯度。
-
同时,这种离心势可以通过简单的熵损失来实现:
其中,$ \hat{β}_{i,k}l$是$βl_i$的第k个通道。
-
另一方面,全尺度监督可以直接放大特征密集化引入的某些信号的的特征。更多明确的特征可以参与到RFCC预测中,有助于学习更好的隐藏层表示,提高语义分割性能。
-
特征密度化的总损失可以总结为:
-
所有的监督都可以归纳为:
Experiment
- Datasets:ScanNet V2,S3DIS,Semantic3D