如何快速将特斯拉3D感知移植到擎天柱？有可能只需要HeightFormer

2024-10-29 20:52:26

如何快速将特斯拉3D感知移植到擎天柱？有可能只需要HeightFormer

Abstract

车载3D目标检测技术作为自动驾驶的关键技术受到了广泛关注，但很少有研究关注在3D交通目标检测中应用路边传感器。现有研究通过基于棱锥体的高度估计实现了2D图像特征到3D特征的投影。然而，它们没有考虑高度对齐和鸟瞰视角（BEV）特征提取的效率。为了解决这些问题，我们提出了一种结合空间变换器和体素池化变换器的新型3D目标检测框架，以增强基于高度估计的2D到3D投影。在Rope3D和DAIR-V2X-I数据集上进行了大量实验，结果表明该算法在车辆和骑行者检测方面具有显著的优势。这些结果表明该算法在不同检测场景下具有鲁棒性和泛化能力。提高路边3D目标检测的精度有助于构建一个安全可靠的车路协同智能交通系统，并促进自动驾驶技术的大规模应用。

代码获取：https://anonymous.4open.science/r/HeightFormer

欢迎加入自动驾驶实战群

Introduction

自动驾驶技术作为一种减少交通事故和提高交通效率的新型交通技术模式，正在迅速发展。感知技术是自动驾驶最重要的技术之一。自动驾驶车辆通过传感器获取周围环境信息，以便做出决策和采取行动。根据传感器的类型，感知技术可以分为基于点云的感知、基于视觉的感知和融合感知。由于激光雷达成本高，许多学者认为，基于视觉的感知是未来推动自动驾驶车辆大规模生产的主要研究方向。然而，由于车载相机的安装高度受限，感知范围有限，容易被周围车辆（特别是卡车或公共汽车）遮挡，导致盲区，从而可能引发严重事故。为填补这一空白，许多研究人员开始关注路边相机的性能，期望为自动驾驶车辆提供准确可靠的感知结果。

路边感知由于传感器安装位置较高，感知范围更广，盲区较少，具有3D目标检测任务的优势。在3D目标检测任务中，不仅需要对目标进行分类，还需要获取目标在3D空间中的位置、大小、方向和速度等信息。因此，许多研究者在路边视角下开展了单目3D目标检测任务的研究。然而，由于路边摄像头类型和安装方式不一致，可能存在不同的焦距和俯仰角，摄像头的视角不再与地面平行。这些问题为路边单目3D目标检测任务带来了许多挑战。

目前，基于视觉的3D目标检测的主流方法包括利用注意力机制的方法和基于棱锥体投影的方法。基于注意力机制的方法主要通过对3D检测框进行回归预测来实现检测。然而，由于相机不提供图像深度信息，这种方法在3D检测中的感知精度较低。基于棱锥体的方法通过估计2D图像中的目标高度或深度，构建3D目标，通过投影生成BEV特征，实现目标检测。基于棱锥体的方法具有较高的精度，且基于高度的投影可以提高算法的鲁棒性。因此，我们主要基于棱锥体投影的思想进行了3D目标检测任务研究。

基于路边感知技术，未来可以为自动驾驶车辆提供更广泛和精确的环境信息。然而，这首先需要解决由不同摄像头参数引起的噪声问题，并克服由于摄像头安装俯仰角不同导致的目标感知能力下降的问题，即提高路边感知的鲁棒性、精度和可信度。基于这些问题，我们采用了棱锥体的高度投影方法，并使用了Rope3D和DAIR-V2X-I数据集进行了大量实验。与以往的方法相比，我们的方法在算法的鲁棒性和精度上取得了一些改进。

3.Method

图2展示了所提出的路边单目3D目标检测算法的整体框架。首先，输入固定尺寸的图像，并通过主干网络提取其2D特征。随后，通过高度网络获取图像的高度特征，并结合环境特征和相机参数来生成融合特征，考虑了相机参数和物体的高度特征。改进的2D到3D投影方法用于提取3D目标，然后对3D特征进行体素池化操作。通过自注意力模块获得鸟瞰视角（BEV）特征，最终通过检测头输出3D目标的检测结果。

3.1 高度特征与上下文的融合

如图2所示，高度信息是关键特征。高度网络从2D图像特征中提取高度信息，并且输出的高度特征图与输入图像形状相同。由于传统的LSS感知方法在体素池化过程中会丢失高度信息，因此在执行升降操作之前需要将高度特征与环境特征进行融合，以保留高度信息。现有方法采用逐像素拼接的方式将高度和背景信息进行融合。然而，由于光照条件和视角的不同，路边相机可能会出现空间错位。因此，我们采用了可变形多尺度空间交叉注意力（DMSC）模块，在"升起"之前融合高度和上下文特征，如以下公式所示：

其中，Ffused是融合特征，DMSC（·）是可变形多尺度空间交叉注意力模块，Fcontext表示上下文特征，Hpred是通过高度网络预测获得的高度特征。

图3展示了高度特征和上下文特征的详细融合过程。基于图像的2D特征，通过高度网络估计图像中交通目标的高度，估计出的高度特征与上下文特征一起作为DMSC模块的输入。通过DMSC模块，融合高度与背景特征的2D融合特征被生成。

3.2 基于棱锥体的2D到3D投影

我们采用了适用于高度估计的棱锥体投影方法，将2D特征投影到3D空间中。具体的投影过程如图4所示。由于2D特征中已包含高度信息，对于图像中的任意像素点Pimage.i，它可以通过像素位置(u, v)和高度hi来表示，即Pimage.i = (u, v, hi)。首先，构建一个以虚拟坐标原点Ovirtual和深度为1的参考平面为基础的坐标系，根据相机的内部参数矩阵将像素点转换为相机坐标系中的点，公式如下：

其中，Pcam ref.i表示参考平面上第i个点在相机坐标系中的位置，K表示相机的内部参数矩阵。

由于相机坐标系通常不垂直于地面，因此需要将其转换为Y轴垂直于地面的虚拟坐标系。

其中，Pvirt ref.i是参考平面上第i个点在虚拟坐标系中的位置，Tvirt cam是从相机坐标系到虚拟坐标系的变换矩阵。

假设虚拟坐标系的原点到地面的距离为H，通过相似三角形的原理，找到虚拟坐标系中对应于地面平面上估计高度hi的点Pvirt gd.i，公式如下：

其中，yvirt ref.i表示点Pvirt ref.i在Y轴方向上的坐标。

经过一系列坐标变换和平面变换后，得到了虚拟坐标系中位于地面平面上的点Pvirt gd.i。为了便于检测其位置，需要将其转换到车辆坐标系中，如下所示：

3.3 BEV特征提取

与3D特征空间相比，BEV特征空间能够更好地捕捉交通目标的位置，从而生成3D检测框。同时，将体素特征池化为BEV特征能够减少计算负担，更适合路边感知设备的计算特性。为了提高BEV特征的提取效率，我们通过自注意力模块处理池化特征图，以减少体素池化过程中的噪声干扰。池化操作如下：

其中，FBEV表示自注意力模块，VPF（·）是体素池化变换器模块，FP ooling是体素池化后的特征层。

该方法的详细过程如图5所示：对于特征图，设定合适的patch大小，将特征划分为多个patch。patch的尺寸越小，划分越精细，获取的特征细节越多。划分完成后，通过自注意力头独立计算不同patch之间的权重，特征经过多层感知机（MLP）模块进一步处理和细化。最后，聚合特征以获得BEV特征图。

4.Experiment

4.1 在Rope3D上的结果

我们主要比较了采用BEV方法的3D目标检测方法，包括BEVFormer、BEVDepth、BEVHeight和BEVHeight++。其中，BEVHeight主要专注于路边单目检测，BEVFormer和BEVDepth则专注于多视角3D目标检测，BEVHeight结合了高度和深度信息，并且在多视角场景中表现良好。表1展示了在Rope3D测试数据集下不同IoU条件下Car和Big-vehicle的检测情况。结果表明，与SOTA算法BEVHeight相比，当IoU为0.5时，我们的算法在Car和Big-vehicle的检测精度分别提高了2.37%和10.58%，并在IoU为0.7时，Big-vehicle的检测精度提高了1.40%。然而，对于小型车辆的检测结果比BEVHeight++算法低了4.84%。

为了测试算法的鲁棒性，我们将目标检测的难度等级分为三个等级：Easy、Mid和Hard，依据目标与相机的距离、遮挡情况和截断情况来划分。Easy对应于没有遮挡且没有截断的目标，Mid对应于侧向遮挡在0% - 50%的目标，Hard对应于纵向遮挡在50% - 100%的目标。然后，我们比较了三类交通目标（Vehicle和Cyclist）在不同难度条件下的检测精度。考虑到Cyclist的目标相对较小，检测难度较大，参考现有方法，本文将IoU设置为0.25。表2显示，对于Vehicle和Cyclist这两个检测目标，在不同难度条件下，我们的算法分别比SOTA算法BEVHeight++提高了8.71%/9.41%/9.23%和6.70%/5.28%/4.71%。根据在不同难度条件下的性能下降，我们的算法显示出更好的鲁棒性。

图6展示了交通目标的检测结果。可以看出，该算法对于位于图像中心的较大交通目标具有较高的检测精度。然而，对于位于图像两侧的较小交通目标，效果并不理想。

4.2 在DAIR-V2X-I上的结果

在DAIR-V2X-I数据集上的验证结果中，我们比较了多个SOTA算法，如PointPillars、SECOND、MVXNet、ImvoxclNet、BEVFormer（Li et al. 2022）、BEVDepth、BEVHeight、BEVHeight++等。表3显示了在车辆和自行车的3D目标检测任务中，我们的算法全面优于现有算法，并在行人检测的hard模式下优于其他基于视觉的算法。与基于高度估计的基准算法BEVHeight相比，我们的算法在车辆检测任务中提高了1.65%/3.44%/3.37%，在行人检测任务中提高了1.49%/1.55%/1.67%，在自行车检测任务中提高了0.56%/0.57%/0.59%。

结论

本文的主要贡献如下：

本文提出了一种基于路边视角的单目3D目标检测方法。为了在融合高度特征和背景特征时解决空间不一致性问题，本文增加了可变形多尺度空间交叉注意力（DMSC）模块，以实现高度特征与背景特征的空间对齐，并提高算法的鲁棒性。

本文在BEV特征提取过程中增加了自注意力机制，以解决BEV特征提取精度低的问题。该模块考虑了全局背景信息，并通过动态权重调整，提高了信息提取效率，增强了BEV特征提取过程中的鲁棒性。

本文通过Rope3D和DAIR-V2X-I等热门路边感知基准数据集，进行了大量实验验证了所提算法的精度。在Rope3D数据集中，车辆和大车辆的检测精度分别从76.12%提高到78.49%和从50.11%提高到60.69%。

文章引用：

HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。

码农公寓