Relation-Shape Convolutional Neural Network for Point Cloud Analysis
Authors
Abstract
- 点云分析非常具有挑战性,因为很难捕获隐含在不规则点中的形状。
- 在本文中,提出了RS-CNN,即关系形状卷积神经网络,它将规则网格CNN扩展到不规则配置,以进行点云分析。
- RS-CNN的关键是从关系中学习,即点之间的几何拓扑约束。
- 具体地,局部点集的卷积权重从该点集的采样点与其他点之间的预定义几何先验中学习高级关系表达式。以此方式,可以获得具有明确的关于点的空间布局的推理的归纳局部表示,这导致了很多形状感知和鲁棒性。使用这种卷积作为RS-CNN的基本运算符,可以开发出层次结构来实现上下文形状感知学习,以进行点云分析。
- 通过在三个任务上进行具有挑战性的基准测试的广泛实验,证明RS-CNN达到了最新水平。
(一)Introduction
对3D点云的分析非常具有挑战性,因为很难推断出由这些不规则点形成的基本形状(图1)。
通常,从点集P⊂R3进行学习主要面临三个挑战:
- P是无序的,因此要求学习的表示是置换不变的;
- P分布在3D几何空间中,因此要求学习的表示形式对刚性变换(例如旋转和平移)具有鲁棒性;
- P构成一个基本形状,因此,学习到的表示应具有判别性形状意识。
问题(1)已通过对称函数得到了很好的解决,而(2)和(3)仍然要求全面探索。这项工作的目标是将常规网格CNN扩展到不规则配置,以便一起处理这些问题。
为此,我们提出了一种关系形状卷积神经网络(别名为RS-CNN)。 RS-CNN的关键是从关系中学习,即点之间的几何拓扑约束,我们认为这可以在3D点云中编码有意义的形状信息。
- 每个局部卷积邻域都是通过将采样点x作为质心来构造,周围的点作为其邻居N(x)。
- 卷积权重从预定义的几何先验中学习高级关系表达式,即x和N(x)之间的直观低级关系。通过以这种方式进行卷积,可以获得具有关于点的空间布局的明确推理的归纳表示。它可辨别地反映不规则点形成的潜在形状,因此可以识别形状。此外,它可以受益于几何先验,包括对点置换的不变性和对刚性变换(例如,平移和旋转)的鲁棒性。
- 通过将卷积作为基本运算符,可以开发类似于CNN的分层体系结构,即RSCNN,以实现上下文形状感知学习以进行点云分析。
主要的贡献如下:
- 提出了一种新的从关系中学习卷积算子,称为关系形卷积。它可以显式地编码点的几何关系,从而获得更多的形状意识和鲁棒性;
- 提出了一种具有关系形状卷积的深层次结构,即RS-CNN。它可以将规则的网格CNN扩展到不规则的配置,以实现点云的上下文形状感知学习;
- 跨三个任务在具有挑战性的基准上进行了广泛的实验,以及详尽的经验和理论分析,证明RS-CNN达到了最先进的水平。
(二)Related Work
View-based and volumetric methods. 基于视图的方法将3D形状表示为来自不同角度的一组2D视图。
- 通常会微调经过预先训练的基于图像的体系结构以进行准确识别。
- 但是,2D投影可能会由于自遮挡而导致形状信息丢失,并且通常需要大量视图才能获得良好的性能。
- 体素方法将输入的3D形状转换为常规3D网格,可以在其上使用经典的CNN 。
- 主要限制是由于3D网格强制执行的低分辨率而导致形状的量化损失。最近的空间划分方法,例如K-d树或八叉树挽救了一些分辨率问题,但仍然依赖于边界体积的细分而不是局部几何形状。
- 与这些方法相比,我们的工作旨在直接处理3D点云。
Deep learning on point cloud.
- PointNet [26]通过在每个点上独立学习并通过最大池收集最终特征来开创了这条路线。然而,这种设计忽略了本地结构,事实证明,局部结构对于CNN的成功至关重要。
- PointNet ++ [28]建议将PointNet分层应用到点云。
- Superpoint [20]提出将点云划分为几何元素。
- 图卷积网络应用于由相邻点创建的局部图。
小结: 这些方法没有显式地建模点的局部空间布局,因此获得的形状感知较少。相比之下,这篇论文通过学习点之间的高级关系表达式来捕获点的空间布局。
一些论文将点云映射到高维空间,以促进经典CNN的应用。
- SPLA TNet 将输入点映射到稀疏网格上,然后使用双边卷积进行处理。
- PCNN将点云上的函数扩展为环境空间上的连续体积函数。
小结: 这些方法可能会导致几何信息丢失,而我们的方法直接在点云上运行而不会引起这种丢失。
另一个关键问题是点云的不规则性。
- 一些论文着重于分析与点集学习等价的对称函数。
- 一些论文开发了对齐网络,以增强3D空间中刚性转换的鲁棒性。但是,对齐学习是此问题的次佳解决方案
- 一些传统的描述符(例如快速点特征直方图)对于平移和旋转可能是不变的,但是对于高层形状理解而言,它们通常效率较低。
小结: 这篇论文学习点之间的几何关系的方法因此对刚性变换很鲁棒。
Relation learning.
- DGCNN通过学习高维特征空间中的点关系来捕获相似的局部形状。
小结: DGCNN这种关系在某些情况下可能不可靠。 这篇论文从3D空间中的几何先验学习高级关系表达式,并执行上下文局部到全局形状学习。
(三)Shape-Aware Representation Learning
点云分析的核心是判别性地表示底层形状,并具有鲁棒性。这篇论文通过使用新颖的关系形状卷积(RS-Conv)将规则网格CNN扩展到不规则配置,来学习针对此目标的上下文形状感知表示。
3.1. Relation-Shape Convolution
局部到全局学习在图像CNN中获得了巨大的成功,但是,它非常依赖于从不规则点子集中进行形状感知的归纳学习,这仍然是一个非常棘手的问题。
Modeling. 为了克服这个问题,这篇论文将局部点子集Psub⊂R3建模为球面邻域,其中采样点xi为质心,周围的点为邻居xj∈N(xi)。
图2的最左侧部分说明了此建模。目标是学习该邻域的归纳表示fPsub,其应有区别地编码基础形状信息。
为此,将一般的卷积运算表述为
- x是3D点,f是特征向量。
- dij是xi和xj之间的欧几里得距离,r是球体半径。
- fPsub是通过首先使用函数τ转换N(xi)中所有点的特征,然后将它们与函数A以及非线性激活因子σ相加而获得的。
- 在此公式中,两个函数A和τ是fPsub的关键。即,仅当A是对称的(例如,求和)并且在N(xi)中的每个点上共享τ时,才能实现点集的置换不变性。
Limitations of classic CNN.
- 在经典的CNN中,τ被实现为τ(fxj)=wj⋅fxj,其中wj是可学习的权重,“·”表示逐元素相乘。
- 当将卷积应用于点云时,主要有两个局限性:
1)wj在N(xi)中的每个点上不共享,导致点置换的方差和不能处理不规则Psub的能力(例如,不同的数量);
2)wj反向传播的梯度仅与孤立点xj有关,从而导致隐式学习策略,这不会带来太多的fPsub的形状意识和鲁棒性。
Conversion:Learn from relation.
-
可以通过从关系中学习来减轻上述限制。在3D空间的邻域中,xi及其所有邻域N(xi)之间的几何关系是关于点的空间布局的明确表达,这进一步区分了基础形状。
-
为了捕获这种关系,用wij替换了wj经典CNN,该wij学习了关系向量hij的映射M,即xi和xj之间的预定义几何先验。hij为底层关系。这个过程可以描述为:
-
映射M的目的是抽象两点之间的高级关系表达式,可以对它们的空间布局进行编码。在这里,使用共享的多层感知器(MLP)来实现M,由于其具有强大的映射功能。此过程在图2的中间部分进行了说明。以此方式,wj整齐地转换为wij,其梯度(由hij确定)与xi和xj相关。同时,M在N(xi)中的所有点上完全共享,从而使其不受点的不规则性影响。刚性转换也很健壮。
-
等式(1)的fPsub
这种卷积表示将xi和N(xi)之间的所有关系加总,可以实现有关点的空间布局的显式推理,从而导致判别性形状感知。对于几何先验,可以使用3D欧式距离作为对低级关系hij的直观描述。此外,hij也可以灵活定义,因为M可以将其映射到高维关系向量以使用fxj进行通道对齐,以便于乘法。我们将在实验部分讨论hij的详细信息。
Channel-raising mapping. 在等式(3)中,fPsub的通道号与输入特征fxj相同。这与经典图像CNN不一致,经典CNN在增加通道数量的同时降低图像分辨率以实现更抽象的表示。例如,在VGG网络[34]中设置了通道号64-128-256-512。因此,我们在fPsub上添加了一个共享的MLP,用于进一步的信道提升映射。它显示在图2的中间部分。
3.2 Properties
RS-Conv中等式3可以保持四个像样的属性:
Permutation invariance. 在内部映射函数M(h)中,低级关系h和共享MLPM均不变于点的输入顺序。因此,在外部聚集函数A是对称的情况下,可以满足置换不变性。
Robustness to rigid transformation. 在高级关系编码M(h)中很好地保留了此属性。当定义了合适的h(例如3D欧几里得距离)时,它对于刚性平移(例如平移和旋转)可能是健壮的。
Points interaction. 点不是孤立的,附近的点在几何空间中形成有意义的形状。因此,它们固有的相互作用对于区分形状的意识至关重要。我们的关系学习解决方案显式地编码点之间的几何关系,自然地捕获了点之间的相互作用。
Weight sharing. 这是关键特性,可将相同的学习功能应用于不同的不规则点子集,以实现鲁棒性和低复杂度。在等式中(3),对称A,共享的MLPM和预定义的几何先验h都独立于点的不规则性。因此,也满足该性质。
3.3. Revisiting 2D Grid Convolution
提出的RS-Conv是用于关系推理的2D网格卷积的通用表述。
图释: 通过在2D网格特征图上使用3×3的邻域(卷积核)。
- 求和函数Σ是聚合函数A的特定实例。
- wj始终意味着xi与其在规则网格中相邻节点xj之间固定的位置关系。
- w1始终暗示与xi的左上关系
- w2暗示与xi的右上关系。
- 在学习过程中,wj实际上被约束为对一种规则的网格关系进行编码。
因此,我们的带关系学习的RS-Conv更为通用,可以应用于建模2D网格空间关系。
3.4. RS-CNN for Point Cloud Analysis
使用RS-Conv(图2)作为基本运算符,并采用统一的采样策略,层次形状感知学习架构像经典CNN,即RS-CNN,用于点云分析,例如
FPNtl(采样点集PNt的第l层为数字Nt的要素)是通过对上一层 l−1 的特征应用RS-Conv获得的。
图释: RS-CNN在点云的分类和分割中的应用如图4所示。
- 在这两个任务中,RS-CNN用于学习一组层次的Shapeaware表示。配置最终的全局表示形式,后跟三个完全连接的(FC)层,以进行分类。
- 对于分割,通过特征传播对学习的多级表示进行连续上采样以生成每点预测。两者都可以端到端的方式进行训练。
3.5. Implementation Details
RS-Conv in Eq. (3).
- 对称函数最大池化被用作聚合函数A。
- ReLU[25]被用作非线性激活因子σ。对于映射函数M,部署了三层共享MLP,因为从理论上讲它可以适合任意连续映射。低级关系hij被定义为具有10个通道的紧凑向量,即(3D欧几里得距离,xi-xj,xi,xj)。信 道提升映射是通过单层共享MLP实现的。批量归一化[13]应用于每个MLP。;
RS-CNN for points analysis.
- 从点云中选出最远的点,以对本地子集进行采样以执行RS-Conv。
- 在每个领域中,随机抽取一定数量的邻居进行批处理,将它们标准化以质心为原点。
- 为了捕获更充分的几何关系,强制RSCNN在以共享权重的采样点为中心的三尺度邻域中学习。
- 将具有3层和4层的RS-CNN分别用于分类和分段。
- 只有3D坐标xyz用作RS-CNN的输入特征。
- RS-CNN使用Pytorch2实现。
- Adam优化算法用于训练,最小批次大小为32。
- BN的动量从0.9开始,然后每20个epochs以0.5的速率衰减。
- 学习速率从0.001开始,然后每20个epochs以0.7的速率衰减。
(四)Experiment
任务:
- 评估RSCNN在三个任务上的点云分析(4.1节)。
- 提供了详细的实验来仔细研究RSCNN(第4.2节)。
- 将RS-CNN捕获的形状特征可视化并分析复杂性(第4.3节)。
4.1. Point Cloud Analysis
Shape classification.
- 数据集: ModelNet40,由40个类别的9843个训练模型和2468个测试模型组成。
- 采样了点云数据的模式与pointnet相同。统一采样1024个点并将其标准化为单位球体。
- 在训练过程中,我们在[-0.66,1.5]范围内使用随机各向异性缩放并在[-0.2,0.2]范围内进行平移来扩充输入数据。
- 同时,在FC层中应用了比率为50%的dropout 技术。
- 在测试过程中,使用随机缩放执行十次投票测试,并对预测取平均。
表释: 总结了与最新点方法的定量比较。
- RS-CNN优于所有xyz输入法。
- 仅使用xyz作为输入,与最佳附加输入法SO-Net [21](93.4%)相比,RS-CNN也可以实现出色的结果(93.6%)。
任务: 使用1024、512、256、128和64的稀疏点作为以1024点训练的模型的输入,来测试RS-CNN在采样密度上的鲁棒性。
图释:当点变得稀疏时,形状识别会更加困难。即使这样,RS-CNN仍然相当强大。它具有与PointNet ++几乎一致的鲁棒性,同时在每种密度下均显示出卓越的性能。
Shape part segmentation.
-
数据集:ShapeNet,该数据集包含16881个形状和16个类别,总共标记为50个部分。
-
采样点云数据的模式与pointnet相同。随机选择2048个点作为输入,并将对象标签的一键编码连接到最后一个特征层。
-
在测试期间,使用随机缩放比例应用了十项投票测试。
表释:总结了最新方法的定量比较。 -
RS-CNN以84.0%的mIoU和86.2%的实例mIoU达到最佳性能。
-
RS-CNN在基于xyz的方法中在十个类别实现了新的技术水平。
-
这些改进证明了RS-CNN对各种形状结构的鲁棒性
图释: 显示了一些分割示例。尽管隐含在不规则点中的零件形状是多种多样的,并且可能很难识别,但是RS-CNN也可以以相当高的精度对它们进行分割。
Normal estimation.
- 将法线估计作为有监督的回归任务,并使用分割网络来实现。
- 归一化输出和ground truth 法线之间的余弦损耗用于回归训练。
- 使用ModelNet40数据集进行评估,以统一采样的1024点作为输入。
表释: 在此任务上,RSCNN的性能优于其他高级方法,误差较低,为0.15。这样可以将PointNet ++(0.29)的错误显着减少48.3%。
图释: 显示了一些正常的估计示例,其中带有几何关系学习的RS-CNN可以获取更多好的预测。但是,对于某些棘手的形状,例如螺旋楼梯和复杂的植物,RS-CNN也可能不太有效。
4.2. RS-CNN Design Analysis
任务:
- 首先对RS-CNN进行详细的消融研究。
- 讨论了等式(3)中聚合函数A,映射函数M和低级关系h的选择。
- 验证RS-CNN在点置换和刚性变换上的鲁棒性。所有实验均在ModelNet40分类数据集上进行。
Ablation study. 将baseline(模型A)设置为不使用几何关系编码进行学习,而是使用共享的三层MLP作为方程式(1)中的特征转换函数τ。
表释:
- baseline仅获得87.2%的准确度。通过几何关系学习,可以将其显着提高到89.9%(模型B)。证明了RS-CNN的有效性。
- 使用BN(模型C)后可将性能提高2%,这可能是因为它可以大大简化网络训练。
- DP技术将结果提高了0.3%(模型D)。
- RS-CNN能够从足够的几何关系中受益。模型E(92.5%)和模型F(92.9%)分别进行了两级和三级关系学习验证了这一点。
- 通过十次投票测试,仅使用xyz功能就可以达到93.6%的惊人准确性(G型)。
- 训练了2048个点的网络,但没有发现任何改善(模型H)。
- 该模型(模型I)适用于除关系学习之外的所有技术。准确度达到90.1%,RS-CNN也可以超过3.5%。
小结: 具有几何关系推理的RS-CNN可以获取更多的判别性形状意识,并且通过多尺度关系学习可以大大增强这种意识。
Aggregation functionA. 三个对称函数:最大池(max),平均池(avg)和求和(sum)用于研究A对RS-CNN的影响。
表释: 可以看出,在M使用三层的情况下,最大池实现了最佳性能,而平均池和求和得到了相同的结果准确性。原因可能是最大池可以选择最大的特征响应,从而保留最有表现力的表示并删除冗余信息。
Mapping function M.
- 共享的三层MLP可获得93.6%的最佳精度,而增加M的数量则将其降低0.9%。原因可能是四层的M给网络训练带来了一些困难。
- 仅使用两层,RS-CNN在使用M的情况下也可以获得92.4%的体面精度。这验证了关系学习对于从点云捕获基本形状的强大功能。
Low-level relation h. h可以灵活定义,只要它可以区别地反映基本形状即可。为了验证这一主张并促进理解,以五个直观的关系定义作为示例进行实验,其结果总结在表6中。
表释:
- 仅使用3D欧式距离作为h,精度也可以达到92.5%(模型A)。这证明了我们的RS-CNN对于高级几何关系学习的有效性。
- 通过包括坐标差(模型B)和坐标自身(模型C)在内的其他关系,性能逐渐提高。
- 利用两个点的法线向量及其余弦距离作为h,结果(模式D)是92.8%。这表明RS-CNN也能够从法线中的关系中提取形状信息。
- 直观地,点云的2D视图中的点之间的关系也可以反映基础形状。为了验证RS-CNN在2D关系上的形状抽象,将3D坐标中的一维值强制设置为零,即将3D点投影到XY,XZ和YZ的2D平面上。结果大约是92.2%(E型),这进一步验证了所提出的关系学习方法的有效性。
Robustness to point permutation and rigid transforma-tion. 将RS-CNN与PointNet 和PointNet ++的鲁棒性进行比较。
- 所有模型都经过训练,没有相关的数据扩充,例如平移或旋转,以避免在此测试中造成混淆。
- 尽管RS-CNN中的关系学习对旋转具有鲁棒性,但3D坐标的初始输入特征会受到影响。通过将每个采样点子集归一化为相应的局部坐标系来解决此问题,该局部坐标系由每个采样点及其法线确定。
- 为了公平地比较,对PointNet ++执行此归一化,因为它也可以从本地子集中学习。
- 在此测试中,将3D欧式距离用作RSCNN中的几何关系h。
表释: 可以看出,所有方法对于排列都是不变的。但是,PointNet易受平移和旋转的影响,而PointNet ++对旋转敏感。相比之下,我们的带有几何关系学习的RS-CNN对于这些扰动是不变的,从而使其对于强大的形状识别具有强大的功能。
4.3 Visualization and Complexity Analysis
Visualization.
图释: 可视化了由ModelNet40数据集上的前两层RS-CNN学习的形状特征。第一层学习的特征主要响应边缘,拐角和弧形,而第二层中的特征则捕获了更多的语义形状部分,例如机翼和头部。这验证了RS-CNN可以学习渐进的形状感知表示形式以进行点云分析。
Complexity Analysis.
表释: 总结了空间RS-CNN的分类空间(参数数量)和时间(浮点运算/采样)复杂度,以1024点作为输入。与PointNet 相比,RS-CNN将参数减少了59.7%,将FLOP减少了32.9%,这显示出其在实时应用(例如自动驾驶中的场景解析)中的巨大潜力。
(五)Conclusion
- 在这项工作中,提出了RS-CNN,即关系形状卷积神经网络,它将规则网格CNN扩展到不规则配置以进行点云分析。
- RS-CNN的核心是一种新颖的卷积算子,它可以从关系(即点之间的几何拓扑约束)中学习。
- 通过这种方式,可以对点的空间布局进行明确的推理,从而获得有区别的形状意识。此外,还可以获得几何关系的良好特性,例如对刚性变换的鲁棒性。结果,配备有该运算符的RSCNN可以实现上下文形状感知学习,从而使其高效。
- 跨三个任务的具有挑战性的基准测试的广泛实验,以及详尽的经验和理论分析,证明RS-CNN达到了最先进的水平。