Sensor Fusion 论文精读系列(二)

Sensor Fusion 论文精读系列(二)

《Multi-View Adaptive Fusion Network for 3D Object Detection》

1 简介

《三维对象检测的多视图自适应融合网络》这篇文章2020年发表于arXiv,作者王国军,吉林大学博士

2 摘要

提出了一个单级多视图融合框架,它以激光雷达鸟瞰视图、激光雷达工作范围视图和相机视图图像作为三维物体检测的输入。我们提出了一个注意点态融合(APF)模块来估计三个注意机制的重要性,可以以点态方式实现多视图特征的自适应融合。此外,还设计了一个专注点加权(APW)模块,帮助网络学习结构信息和点特征重要性,还有另外两个任务,即前景分类和中心回归,并利用预测的前景概率对点特征进行重加权。我们设计了一个名为MVAF-Net的端到端可学习网络来集成这两个组件。我们在KITTI3D对象检测数据集上进行的评估表明,所提出的APF和APW模块提供了显著的性能提高。此外,所提出的MVAF-Net在所有单级融合方法中取得了最好的性能,并优于大多数两级融合方法,在KITTI基准上实现了速度和精度之间的最佳权衡。

3.引言

  1. 来自CV的RGB图像和来自RV的范围图像通常都有噪声信息,如遮挡和截断。因此,在将三维点投影到RGB图像或范围图像上后,将获得错误的点特征
  2. 随着注意机制在视觉CNN模型中的应用,一些方法采用了自我注意机制来实现多视图特征融合,如PI-RCNN、3D-CVF和EPNet。虽然取得了良好的性能,但这些融合方法通常采用两阶段技术,使用召回率池将图像与点云融合。此外,多点云特征提取器,如PointNet++和Conv,进一步增加了整个网络的计算负担。
  3. 整个网络由单视图特征提取(SVFE)、多视图特征融合(MVFF)和融合特征检测(FFD)部分组成,如图所示。
    Sensor Fusion 论文精读系列(二)①在SVFE部分:原始RGB图像和点云由三线特征提取网络处理,生成多视图特征图,其中点云被分解为BEV和RV的体素化
    ②在MVFF部分:通过将原始点云投影到BEV特征图和双线性插值上,得到BEV、RV和CV插值特征。为了解决多视图特征融合中的挑战,我们设计了一个专注的点态融合(APF)模块,以点态的方式自适应地融合多视图特征。首先,将BEV、RV和CV点特征连接起来,获得初步的混合特征;然后,使用混合点特征作为APF模块的输入,以估计通道方面的重要性,从而决定了使用注意机制从三个来源带来的信息
    ③论文的解决方案具有两个主要优点,包括1)通过点态投影实现多视图输入之间的细粒度点态对应关系;2)解决CV和RV可能引入的干扰信息问题。为了弥补体素化过程中点云几何结构信息的损失,我们用原始点特征进一步丰富了融合点特征。
    ④直观上说,属于前景对象的点对最终检测任务的贡献应该更多,而来自背景区域的点的贡献应该更少。因此,提出了一个注意点加权(APW)模块,在前景分类的额外监督下对融合点特征进行重加权。受SA-SSD的启发,我们添加了另一个具有中心回归的监督。因此,APW模块使用融合点特征来执行两个额外的任务:前景分类来重新加权融合点特征,以及中心回归来在特征中灌输对对象内关系的意识。与SA-SSD不同,我们的APW模块将在训练和测试阶段运行,而不是辅助的。此外,我们的APW模块使用点特征而不是体素中心特征,这可以更好地维护几何结构信息。
    ⑤在FFD部分,融合和重新加权点特征再次像素化,用作融合主干的输入进行最终的三维检测。
  4. 贡献:
    ①我们设计了一个专注的点态融合模块,通过点态投影实现了多个视图之间的细粒度点态对应关系。APF模块可以以点态方式自适应地融合BEV、RV和CV与注意机制的功能。
    ②我们提出了一个值得注意的点态加权模块,并具有来自前景分类和中心回归的额外监督。预测的前景分类可以用于重新加权融合点特征,中心回归可以通过CNN主干的学习结构信息,在没有额外成本的情况下实现更好的定位性能。
    ③基于专注点融合和专注点加权模块,提出了一种多视图自适应融合网络(MVAF-Net),一种新的三维对象融合检测框架,有效地结合了多个视图的信息:BEV、RV和CV。它在所有单阶段融合方法中取得了最好的性能,并在KITTI基准测试上优于大多数两阶段融合方法。

4.相关工作

A. PointRCNN,STD和3DSSD。与基于体素的方法相比,基于点的方法具有具有集抽象操作的点云特征学习灵活接受域,但受到高计算成本的限制。基于表示的混合的方法采用点和体素输入,并在网络的不同阶段融合其特征用于三维对象检测,如PV-RCNN和SA-SSD。这些方法可以利用基于体素的操作(即三维稀疏卷积)和基于PointNet的操作(即设置抽象操作),以实现高计算效率和灵活的接收域来提高三维检测性能。
  B. AVOD融合了中间卷积层处的激光雷达BEV和CV特征,提出了三维边界盒。 ContFuse使用连续卷积,以不同的分辨率融合图像和激光雷达特征。MMF在融合框架中增加了地面估计和深度估计,并在联合学习多任务的同时学习更好的融合特征表示。
虽然已经提出了各种传感器融合网络,但它们的性能不会轻易优于仅使用激光雷达的探测器,因为它们很少认识到多视图特征的重要性和噪声的不同方面。在接下来的部分中,将介绍论文提出的MVAF-Net,以克服这一挑战。

多视角自适应融合网络

首先,网络分为三部分:单视图特征提取(SVFE)、多视图特征融合(MVFF)、融合特征检测(FFD)
SVFE:原始RGB图像和点云由三线CNN主干(CV、BEV和RV主干)处理,以生成多视图特征图,其中点云在BEV和RV中进行体素化。
MVFF:多视图特征以点态的方式与所提出的注意点态融合模块进行自适应地融合。APF模块可以自适应地确定有多少信息,利用提出的注意点加权模块对融合点特征进行进一步处理,重新加权点特征并学习结构信息。
FFD:融合和重新加权点特征再次像素化,用作融合主干的输入,进行最终的三维检测。

A.单个视图的特征提取

Fcv:选择了轻量级的RegNetX作为CV主干,因为它的效率。CV主干有四个块来向下采样输入16×,最后三个块的输出被上采样并连接以获得CV特征图Fcv。
Fbev:鉴于BEV编码可以保持物理尺寸和尺度信息,我们将点云体素化成BEV中的柱子。为了减少信息损失和提高内存效率,我们使用动态体素化来离散点云。它可以避免不确定性体素嵌入导致的不稳定性能和体素填充导致的不必要的内存使用。
步骤:
 1)基于沿x、y、z轴的地面真实分布,分别裁剪点云。一个基于点的完全连接的层是适应于学习高维的点特征。
 2)高维点特征然后被分成体素大小为vx,沿x、y轴,并使用最大池操作来获得柱特征。
 3)编码的柱特征分散到原来的柱位置,以构建一个由BEV主干进一步处理的伪图像。BEV主干有三个块,可以对伪图像下采样8×,并对三个块的输出进行上采样并连接,以获得BEV特征图FBEV。
Frv:RV编码是旋转激光雷达传感器的本机表示。它保留了所有的原始信息,而没有任何损失。除此之外,致密和紧凑的特性使处理效率更高。因此,我们提出了另一个范围视图流来提取点云特征。
 1)我们离散了圆柱形坐标系中的点云。与球面坐标系相比,圆柱形坐标系可以更好地保持z轴方向上的尺度。点pi(xi、yi、zi)的柱坐标(ρi、φi、zi)如下所示:
Sensor Fusion 论文精读系列(二)

范围视图中的相同动态变量化操作用于范围视图中的特征提取。
 2)首先,利用基于点的全连通层来学习基于圆柱坐标和点强度的高维点特征。高维圆柱点特征也分为体素大小为vφ,vz沿φ,z轴,采用最大池化操作获得圆柱柱特征。编码的圆柱形柱特征也分散到原始位置,构造一个圆柱形伪图像特征图,由RV主干进一步处理。RV主干也有三个块来对伪图像8×进行向下采样,并且这三个块的输出被上采样并连接以获得RV特征图FRV。

B.多视角特征融合

APF
  以点态方式学习多视图特征融合和APW模块。APF模块自适应地融合了多视图特征与注意机制,可以确定有多少信息来自这三个来源。利用提出的APW模块对融合点特征进行进一步处理,重新计算融合点特征并学习结构信息。
  1)多视图特征映射:为了以点态的方式融合多视图特征,我们应该建立原始点云与上述三线主干的多视图特征图之间的对应关系。具体地说,我们分别使用映射矩阵MCV、MRV、MBEV,将激光雷达点投影到FCV、FRV、FBEV上。更详细地说,对于点云中的特定点pi(xi、yi、zi),可以得到FCV中它的对应位置p0i(x0i、y0i),可以写为:
p0i = MCV ∗ pi
  同样地,我们也可以在FRV和FBEV中获得相应的位置。其中,MCV是激光雷达-摄像机视角投影矩阵,从RV流和BEV流的体素化参数中可以分别得到MRV和MBEV。然后,通过在相应位置上的双线性插值,可以得到多视点的点特征,如图所示。
Sensor Fusion 论文精读系列(二)
Attentive Pointwise Fusion:为了从多视点特征中提取基本特征,我们提出了一个注意点融合模块,它根据与目标检测任务的相关性选择性地结合多视点特征。所提议的APF模块如图所示。

Sensor Fusion 论文精读系列(二)

多视点特征FP−CV、FP−BEV和FP−RV按通道连接,以获得扩展点特征FP−E。然后将扩展特征FP−E分别输入三个信道注意模块,每个模块使用扩展特征以信道方式自适应地估计它们各自的重要性。具体地说,扩展特征输入它们各自的全连接层MLPBEV、MLPCV和MLPRV,每个包括线性层、ReLU层和一个线性线层。然后,通过乙状函数得到各自的特征权值,最后以通道方式将权重乘以相应的特征,得到相应的注意特征。通道注意力的具体形式如下:
Sensor Fusion 论文精读系列(二)

我们进一步丰富了融合点特征FP −Raw特征FP −F usion。为了使原始点特征FP−原始与注意点特征兼容,应用一个称为MLP原始的简单完全连接网络将原始点特征映射到适当的维度。MLPRaw由线性层、BN层和ReLU层组成。原始点云可以部分补偿初始点云体素化的量化损失。

Attentive Pointwise Weighting
  在整个场景被融合点特征 FP −Fusion编码后,它们再次被分组为柱子,作为后续融合特征检测的输入。由于融合点特征是通过插值多维二维特征图得到的,因此三维几何和结构信息将不可避免地丢失。此外,大多数点可能只代表背景区域。直观上说,属于前景对象的点对最终对象检测的贡献应该更多,而来自背景区域的点的贡献应该更小。因此,我们提出了一个值得注意的点态加权模块来执行两个额外的任务:前景分类和点态中心回归,如图所示。
Sensor Fusion 论文精读系列(二)

前景分类分支用于预测每个点的前景/背景概率,并进一步用于重新加权融合点的特征。中心回归分支用于预测每个对象点到对象中心的相对位置的回归,可以强制流主干网络来学习结构感知特征。前景分类和中心回归标签可以直接通过三维地面真相边界框生成,即通过检查每个点是否在三维边界框内,并计算来自边界框中心的偏移量,这两个分支机构可表述为:
Sensor Fusion 论文精读系列(二)

其中,MLPmid、MLPcls和MLPctr是完全连接的层,MLPmid包括线性层和ReLU层,MLPcls包括线性层和乙状层,而MLPctr仅包括线性层。FP −F usion−W eighted是重加权和融合点特征,¤是元素乘法算子。前景分类损失Lfore使用焦点损失,中心回归损失Lctr使用SmoothL1损失,中心回归损失只考虑前景的点。

C. 融合特征检测

在FFD部分中,融合和重新加权点特征FP −F usion−W eighted再次以与BEV流相同的方式进行体素化,以获得柱特征。编码的柱特征分散到原来的柱位置,以构建一个伪图像。伪图像特征通过融合主干网前向传播,进行最终的三维检测。我们采用了一种检测头和损失设计,它包括三个部分:类别分类、边界箱回归和方向分类。类分类损失Lcls使用焦点损失,边界框回归损失Lloc使用SmoothL1函数定义锚的偏移损失,方向分类损失Ldir使用软最大分类损失。总体损失函数可以定义为:Ltotal=βlocLloc+βclsLcls+βdirLdir+βforeLfore+βctrLctr
Sensor Fusion 论文精读系列(二)

上一篇:Android开发之RecyclerView滑动到底部的监听方法


下一篇:Spring-IOC容器的底层原理