Sensor Fusion 论文精读系列(一)
《A General Pipeline for 3D Detection of Vehicles》
1.简介
《一种车辆3D检测的通用途径》这篇文章于2018年发表于arXiv,作者为杜欣欣,新加坡国立大学。
2.摘要
- 提出了一种途径:在二维检测网络变化最小的情况下生成三维信息,为了识别三维框,开发一种基于广义汽车模型的分数图有效模型拟合算法。
- 提出一种两阶段的CNN来改进检测到的三维框。
3.引言
本文提出的框架如图所示
- 原始图像通过二维检测网络确定车辆区域二维框。
- 选择在投影后落入二维边界框中的一组三维点。
- 使用此集合,模型拟合算法可以检测车辆的三维位置和三维边界框。
- 另一个CNN网络,将适合到3D边界框的点作为输入,进行最后的3D框回归和分类。
4.相关工作
A. Car dimension estimation(汽车尺寸估计)
在给定的二维检测网络结束时,还需要一个额外的回归层。首先得到了KITTI数据集中中所有汽车和货车的平均尺寸。计算地面真实回归,计算尺寸回归损失,训练修改后的网络(局部训练:全连接层,卷积层)
B. Vehicle model fifitting(汽车车型适配)
- 使用RANSAC算法思想:首先二维检测会生成一个框,称为子集,从子集中随机选择第一个点,以1.5l(l为CNN预测的车辆长度)为半径的球面上随机找第二个点,两点确定一个垂直平面,任何与平面距离小于阈值的点都被视为与平面的内距。
- 然后选择20个点?在每个点上导出穿过该点并垂直于第一个平面的第二个垂直平面,根据两垂直平面的交线生成8个三维盒子。
- 由于第一个垂直平面是可见的,根据视图方向,消除了四个框。在每个剩余的盒子位置上,通过沿着w和l方向扩展盒子1.5倍来定义一个新的范围。在新的范围内可以找到它的最低点,它确定了三维箱的地面,而根据高度估计设置了三维箱的屋顶。
- 建立不同车型点云模型聚合。
如图,每个聚合沿着这个方向被体素化为一个8×18×10矩阵。矩阵中的每个元素都根据其位置分配不同的分数。表示汽车壳/表面的元素分为1分,表明模型装配过程中落在汽车表面的三维点将计入总分。汽车壳内部或外部的元素被分配为负分数,它们离汽车壳越远(内或外),分配的值就越小。这表明激光雷达不得从汽车外部或内部检测到分数,总得分将受到处罚。矩阵底层的元素被分配的分数为0。在底层检测到的点可能是地面或汽车的轮胎,这很难相互区分。他们将不会受到惩罚或计数。 - 自遮挡问题
自遮挡可以很容易地从视图方向上确定。这是在进行模型拟合时在线编码的,因为不同的三维框方案的视图方向发生了变化。如果汽车表面元素被自遮挡,则会分配负分数。此外,为了简单起见,只考虑四个垂直面进行自遮挡分析,而不考虑车顶和底部。来自SUV类别的两个分数分配切片如图所示。左侧图像表示侧面,右图像表示中心切片。车外和内部以橙色和蓝色表示,底部表示白色。黄色和绿色是指汽车的外壳/表面,而绿色进一步表明这些区域可能被自遮挡。 - 3D盒方案中的点将被分解为8×18×10网格,并与3种潜在的车型进行比较。由于方向不同,网格围绕其垂直中心轴旋转180度,然后与三种模型进行比较。在所有边界框提案中,选择得分最高的提案进行下一步。
C.Two-stage refifinement CNN (两阶段细化CNN)
- 采用一个两阶段的CNN网络,原因:CNNs处理三维点云,其运行速度慢。
- 第一个CNN输出一个新的3D盒。可以在新的3D框中找到一个新的点集。
- 第二个CNN根据新的点集输出一个概率分数,以表明这些分数代表一辆实际汽车的可能性。
- 然而,点集不能直接输入到CNN。我们采用归一化和体素化策略,将点以矩阵形式形式化,以适应CNN。此外,与二维图像检测情况一致,边界框语义能够提供附加信息以提高检测精度。我们还将3D边界框的语义作为CNN的输入。
s1:三维框的确定:沿h、l、w方向扩展,体素化为24×54×32矩阵
s2:CNN基于VGG,第一阶段CNN有两个并行输出,一个用于三维盒回归,另一个用于分类,而第二阶段CNN只有一个输出,分类。
s3:地面回归向量有七个元素,三个表示盒子的中心,三个用于左下角,一个用于宽度。
s4:分类有两个类,汽车和背景。当鸟视框(地面真鸟视框之间的交集(联合交集)大于特定阈值时),3D框分类为正框。CNN第一阶段的阈值为0.5,第二阶段为0.7。0.7与KITTI基准测试设置的标准一致。为第一阶段设置较低阈值的原因是训练网络,使其能够将IoU在0.5到0.7之间的框细化到IoU可能大于0.7的更好位置;否则,网络将把这些框视为负框,而不会被训练来细化它们。
5.评价指标
指标:本文的主要重点是三维检测,我们不评估算法对二维检测任务的性能。根据[19]中提出的评估指标,我们基于鸟视框和3D盒的平均分差(AP)评估我们的建议。鸟瞰框是通过将三维框投影到同一地平面上而生成的。AP根据输出盒和地面真盒之间的IoU计算,而在[5]和[3]中,使用两个盒之间的距离。我们认为这种方法是一个比距离更全面的指数,因为它不仅含蓄地解释了距离,而且也解释了对齐和大小。
6.结论
在本文中,我们提出了一种灵活的三维车辆检测策略,它能够利用任何二维检测网络的优势来提供三维信息。使二维网络适应策略的努力是最小的。在网络输出时,需要一个额外的回归项来估计车辆尺寸。该管道还在三维测量中利用了点云。提出了一种基于通用汽车模型和分数图的有效模型拟合算法,对点云中的三维边界框进行了拟合。最后,开发了一个两个阶段的CNN来微调3D盒。基于两种不同的二维网络的突出结果表明了管道的灵活性及其在三维车辆检测中的能力。