端到端自动驾驶系列(一):自动驾驶综述解析
End-to-end-Autonomous-Driving
Abstract
Abstract—The autonomous driving community has witnessed a rapid growth in approaches that embrace an end-to-end algorithm framework, utilizing raw sensor input to generate vehicle motion plans, instead of concentrating on individual tasks such as detection and motion prediction. End-to-end systems, in comparison to modular pipelines, benefit from joint feature optimization for perception and planning. This field has flourished due to the availability of large-scale datasets, closed-loop evaluation, and the increasing need for autonomous driving algorithms to perform effectively in challenging scenarios. In this survey, we provide a comprehensive analysis of more than 270 papers, covering the motivation, roadmap, methodology, challenges, and future trends in end-to-end autonomous driving. We delve into several critical challenges, including multi-modality, interpretability, causal confusion, robustness, and world models, amongst others. Additionally, we discuss current advancements in foundation models and visual pre-training, as well as how to incorporate these techniques within the end-to-end driving framework. We maintain an active repository that contains up-to-date literature and open-source projects at https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving.
摘要:自动驾驶社区见证了采用端到端算法框架的方法的快速增长,这些方法利用原始传感器输入生成车辆运动计划,而不是专注于检测和运动预测等单个任务。与模块化管道相比,端到端系统受益于感知和规划的联合特征优化。由于大规模数据集的可用性、闭环评估以及对自动驾驶算法在具有挑战性的场景中有效执行的需求不断增加,该领域蓬勃发展。在本次调查中,我们对 270 多篇论文进行了全面分析,涵盖了端到端自动驾驶的动机、路线图、方法论、挑战和未来趋势。我们深入研究了几个关键挑战,包括多模态、可解释性、因果混乱、稳健性和世界模型等。此外,我们还讨论了基础模型和视觉预训练方面的当前进展,以及如何将这些技术整合到端到端驾驶框架中。我们在 https://github.com/OpenDriveLab/End-to-end-Autonomous-Driving维护着一个活跃的存储库,其中包含最新的文献和开源项目。
端到端算法框架 (end-to-end algorithm framework):这种方法指的是从输入(如传感器数据)直接输出(如车辆运动计划)的整个过程都由一个统一的算法处理,而不是将过程分成多个独立的步骤(如检测、跟踪、预测等)。
多模态 (multi-modality):这是指使用多种不同类型的数据或传感器输入(如视觉、雷达、激光雷达等)来提供全面的信息。
可解释性 (interpretability):这是指模型的结果或行为能够被人类理解和解释,尤其在自动驾驶中,这对于安全性和信任度至关重要。
因果混乱 (causal confusion):这是指在建模过程中混淆了因果关系,导致模型在预测时误解了变量之间的实际因果关系。
稳健性 (robustness):这是指算法在面对噪声、异常值或其他不可预见的情况时仍然能够表现良好。
世界模型 (world models):这些是用于模拟和预测环境变化的模型,帮助自动驾驶系统更好地理解和应对周围环境。
基础模型 (foundation models):这些是经过大规模训练、能够执行多种任务的模型,通常用作其他特定任务的基础。
视觉预训练 (visual pre-training):这是指在大量图像数据上预先训练模型,以便在特定视觉任务上获得更好的性能。
闭环评估 (closed-loop evaluation):这是指在评估算法时,将其输出重新反馈到系统中以模拟实际应用场景的过程。这种评估方式更接近于真实环境下的表现。
1 INTRODUCTION
Fig. 1: Survey at A Glance. (a) Pipeline and Methods. We define end-to-end autonomous driving as a learning-based algorithm framework with raw sensor input and planning/control output. We deepdive into 270+ papers and categorize into imitation learning (IL) and reinforcement learning (RL). (b) Benchmarking. We group popular benchmarks into closed-loop and open-loop evaluation, respectively. We cover various aspects of closed-loop simulation and the limitations of open-loop evaluation for this problem. © Challenges. This is the main section of our work. We list key challenges from a wide range of topics and extensively analyze why these concerns are crucial. Promising resolutions to these challenges are covered as well. (e) Future Trends. We discuss how end-to-end paradigm could benefit by aid of the rapid development of foundation models, visual pre-training, etc. Partial photos by courtesy of online resources.
图 1:调查概览。 (a) 流程和方法。我们将端到端自动驾驶定义为一种基于学习的算法框架,具有原始传感器输入和规划/控制输出。我们深入研究了 270 多篇论文,并将其分为模仿学习 (IL) 和强化学习 (RL)。 (b) 基准测试。我们将流行的基准测试分别分为闭环和开环评估。我们涵盖了闭环仿真的各个方面以及该问题的开环评估的局限性。 © 挑战。这是我们工作的主要部分。我们列出了来自广泛主题的主要挑战,并广泛分析了为什么这些问题至关重要。还涵盖了应对这些挑战的有希望的解决方案。 (e) 未来趋势。我们讨论端到端范式如何受益于基础模型、视觉预训练等的快速发展。部分照片由在线资源提供。
Pipeline(管道)
-
(a) Classical Approach(经典方法)
- 描述了传统自动驾驶系统的模块化方法,包括感知(Perception)、映射(Mapping)、预测(Prediction)、规划(Planning)、控制(Control)等阶段。每个阶段处理不同的任务,例如感知阶段负责解释传感器数据,规划阶段负责生成行驶路径等。
-
(b) End-to-end Paradigm(端到端范式)
- 描述了端到端方法的架构,它通过直接从感知数据到控制决策的转换简化了流程。这种方法强调了模块间的信息反馈(例如,从规划到感知的特征反馈),以及通过模块X和Y的交互来优化性能。
Methods(方法)
-
Imitation Learning - Behavior Cloning(模仿学习 - 行为克隆)
- 通过观察专家或优化的驾驶行为来学习驾驶策略。
-
Imitation Learning - Inverse Optimal Control(模仿学习 - 逆向最优控制)
- 不仅模仿行为,还试图理解底层的目标和约束。
-
Reinforcement Learning(强化学习)
- 通过与环境的交互,自我实验和从错误中学习,不断优化驾驶策略。
Benchmarking(基准测试)
-
Real-world(现实世界)
- 在真实环境中测试和验证自动驾驶技术。
-
Closed-loop(闭环)
- 在模拟环境中循环测试,以考察系统的反应和调整。
-
Open-loop(开环)
- 在模拟环境中的单向测试,不考虑系统输出对输入数据的影响。
Challenges(挑战)
- Input Modality(输入模态)
- Visual Abstraction(视觉抽象)
- World Model(世界模型)
- Multi-task Learning(多任务学习)
- Policy Distillation(策略蒸馏)
- Interpretability(可解释性)
- Safety Guarantee(安全保证)
- Causal Confusion(因果混淆)
- Robustness / Generalization(鲁棒性/泛化)
Future Trends(未来趋势)
- Zero/Few-Shot Learning(零次/少次学习)
- Modular End-to-end Planning(模块化端到端规划)
- Foundation Model(基础模型)
1.1 Motivation of an End-to-end System 端到端系统的动机
In the classical pipeline, each model serves a standalone component and corresponds to a specific task (e.g., traffic light detection). Such a design is beneficial in terms of interpretability and ease of debugging. However, since the optimization objectives across modules are different, with detection pursuing mean average precision (mAP) while planning aiming for driving safety and comfort, the entire system may not be aligned with a unified target, i.e., the ultimate planning/control task. Errors from each module, as the sequential procedure proceeds, could be compounded and result in an information loss. Moreover, compared to one end-to-end neural network, the multi-task, multi-model deployment which involves multiple encoders and message transmission systems, may increase the computational burden and potentially lead to sub-optimal use of compute.
在经典管道中,每个模型都提供独立的组件并对应于特定的任务(例如交通灯检测)。这样的设计在可解释性和易于调试方面是有益的。然而,由于各个模块的优化目标不同,检测追求的是平均精度(mAP),而规划则以驾驶安全性和舒适性为目标,整个系统可能无法对准一个统一的目标,即最终的规划/控制任务。随着顺序过程的进行,每个模块的错误可能会加剧并导致信息丢失。此外,与一个端到端的神经网络相比,涉及多个编码器和消息传输系统的多任务、多模型部署可能会增加计算负担,并可能导致计算使用不理想。
In contrast to its classical counterpart, an end-to-end autonomous system offers several advantages. (a) The most apparent merit is its simplicity in combining perception, prediction, and planning into a single model that can be jointly trained. (b) The whole system, including its intermediate representations, is optimized towards the ultimate task. © Shared backbones increase computational efficiency. (d) Data-driven optimization has the potential to improve the system by simply scaling training resources.
与传统的对应系统相比,端到端自治系统具有多种优势。 (a) 最明显的优点是它简单地将感知、预测和规划结合到一个可以联合训练的模型中。 (b) 整个系统,包括其中间表示,针对最终任务进行了优化。 © 共享主干网提高了计算效率。 (d) 数据驱动的优化有可能通过简单地扩展培训资源来改进系统。
1.2 Roadmap 路线图
Fig. 2: Roadmap of End-to-end Autonomous Driving. We present the key milestones chronologically, grouping similar works under the same theme. The representative or first work is shown in bold with an illustration, while the date of the rest of the literature in the same theme may vary. We also display the score for each year’s top entry in the CARLA leaderboard 13 (DS, ranging from 0 to 100) and the recent nuPlan challenge 14) (Score ranging from 0 to 1).
图2:端到端自动驾驶路线图。我们按时间顺序呈现关键里程碑,将类似的作品分组在同一主题下。代表性作品或第一部作品以粗体显示并配有插图,而同一主题的其余文献的日期可能有所不同。我们还显示了每年 CARLA 排行榜 13(DS,范围从 0 到 100)和最近的 nuPlan 挑战 14(分数范围从 0 到 1)中*条目的分数。
CARLA 用于自动驾驶研究的开源模拟器https://carla.org
Introduction:CARLA has been developed from the ground up to support development, training, and validation of autonomous driving systems. In addition to open-source code and protocols, CARLA provides open digital assets (urban layouts, buildings, vehicles) that were created for this purpose and can be used freely. The simulation platform supports flexible specification of sensor suites, environmental conditions, full control of all static and dynamic actors, maps generation and much more.
CARLA从头开始开发,以支持自动驾驶系统的开发、培训和验证。除了开源代码和协议之外,CARLA还提供了为此目的而创建的开放数字资产(城市布局、建筑物、车辆),这些资产可以*使用。仿真平台支持传感器套件的灵活规格,环境条件,所有静态和动态演员的完全控制,地图生成等等。
驾驶评分 (Driving Score):这是排行榜的主要指标,计算方法是路线完成度和违规惩罚的乘积。具体计算公式为 R i × P i R_i \times P_i Ri×Pi,其中 R i R_i Ri 是第 i i i 条路线的完成百分比, P i P_i Pi是第 i i i 条路线的违规惩罚。
路线完成度 (Route Completion):代理完成的路线距离百分比。
违规惩罚 (Infraction Penalty):基于代理触发的违规行为,所有违规行为以几何级数聚合。代理初始得分为1.0,每次违规都会减少得分。
其他违规行为:包括与行人碰撞、与其他车辆碰撞、闯红灯、越线行驶等,每种违规行为都有不同的惩罚系数。
Average driving proficiency score.This metric combines the average route completion percentage with the average infraction factor.Higher is better.
平均驾驶熟练度分数。该指标结合了平均路线完成百分比和平均违规系数。越高越好。
时间线部分
时间线从1988年到2024年,标记了端到端自动驾驶研究的重要年份和方法。
-
1988年
- ALVINN [3]: 早期的自动驾驶研究,使用神经网络进行方向控制。输入是图像,输出是方向。
-
2016年
-
模仿学习 (IL)
- CNN E2E [8]: 使用卷积神经网络(CNN)进行端到端的学习。
- BBDV: 基于模仿学习的驾驶。
-
模仿学习 (IL)
-
2019年
-
条件模仿学习 (Conditional IL)
- CIL [9]: 基于条件的模仿学习。
- CILRS: 基于强化学习的条件模仿学习。
-
条件模仿学习 (Conditional IL)
-
2020年
-
强化学习 (RL):
- CIRL, MaRLn, GRI: 不同的强化学习方法。
- Drive in a Day [4]: 使用强化学习在一天内训练驾驶模型。
-
策略蒸馏 (Policy Distillation):
- WOR, Roach, TCP: 不同的策略蒸馏方法。
- LBC [5]: 学习基于专家数据的策略,图中展示了专家和传感器代理的关系。
-
通用化 (Generalization):
- DARB [10]: 自适应对抗模仿学习。
- AgileAD, SafeDagger: 不同的自适应对抗学习方法。
-
强化学习 (RL):
-
2021年
-
模式/高级结构 (Modality/Advanced Structure)
- InterFuser, ThinkTwice, Transfer [6]: 不同的多模态和高级结构方法。
- 使用了Transformer网络来处理输入数据。
-
模式/高级结构 (Modality/Advanced Structure)
-
2022年
-
数据生成 (Data Generation)
- Advsim, L2C, KING [7]: 不同的数据生成方法。
- 生成关键场景来提升模型的训练效果。
-
数据生成 (Data Generation)
-
2023年
-
策略预训练 (Policy Pretraining)
- PPGeo [12]: 基于地理信息的策略预训练。
- SelfD, ACO: 自我监督和对抗性预训练。
-
策略预训练 (Policy Pretraining)
-
2024年
-
模块化端到端规划 (Modular End-to-end Planning)
- UniAD [2]: 统一的自动驾驶方法。
- P3, MP3, ST-P3: 不同的规划方法,整合了跟踪、映射和规划模块。
-
模块化端到端规划 (Modular End-to-end Planning)
上部数据
-
CARLA Launched: 指的是自动驾驶模拟平台CARLA的发布,后续标记了不同版本的CARLA发布年份。
- DS (Difficulty Score): 表示不同年份的CARLA挑战赛的得分,从8.94到79.95不等。
- nuPlan Launched: 2024年发布的新计划模拟平台,得分为0.90。
下部注释
- 关键里程碑按时间顺序排列,并按相同主题分组。
- 图中的粗体字表示首次工作并配有插图,而同一主题的其他文献日期可能会有所不同。
- 显示了每年CARLA排行榜上的最高分数(DS,从0到100)和最近的nuPlan挑战赛得分(范围从0到1)。
关键术语
- RL (Reinforcement Learning): 强化学习。
- IL (Imitation Learning): 模仿学习。
- Conditional IL: 条件模仿学习。
- Policy Distillation: 策略蒸馏。
- Generalization: 通用化。
- Modality/Advanced Structure: 模态/高级结构。
- Data Generation: 数据生成。
- Policy Pretraining: 策略预训练。
- Modular End-to-end Planning: 模块化端到端规划。
1.3 Comparison to Related Surveys 与同类综述的比较
We would like to clarify the difference between our survey and previous related surveys [40, 41, 42, 43, 44, 45, 46, 47, 48]. Some prior surveys [40, 41, 42, 43] cover content similar to ours in the sense of an end-to-end system. However, they do not cover new benchmarks and approaches that arose with the significant recent transition in the field, and place a minor emphasis on frontiers and challenges. The others focus on specific topics in this domain, such as imitation learning [44, 45, 46] or reinforcement learning [47, 48]. In contrast, our survey provides up-to-date information on the latest developments in this field, covering a wide span of topics and providing in-depth discussions of critical challenges.
我们想澄清我们的调查与之前的相关调查之间的差异[40,41,42,43,44,45,46,47,48]。一些先前的调查[40,41,42,43]涵盖了与我们在端到端系统意义上相似的内容。然而,它们并未涵盖随着该领域近期重大转变而出现的新基准和方法,并且较少强调前沿和挑战。其他人则专注于该领域的特定主题,例如模仿学习 [44, 45, 46] 或强化学习 [47, 48]。相比之下,我们的调查提供了有关该领域最新发展的最新信息,涵盖广泛的主题,并对关键挑战进行了深入讨论。
1.4 Contributions 贡献
To summarize, this survey has three key contributions: (a) We provide a comprehensive analysis of end-to-end autonomous driving for the first time, including high-level motivation, methodologies, benchmarks, and more. Instead of optimizing a single block, we advocate for a philosophy to design the algorithm framework as a whole, with the ultimate target of achieving safe and comfortable driving. (b) We extensively investigate the critical challenges that concurrent approaches face. Out of the more than 250 papers surveyed, we summarize major aspects and provide in-depth analysis, including topics on generalizability, language-guided learning, causal confusion, etc. © We cover the broader impact of how to embrace large foundation models and data engines. We believe that this line of research and the large scale of high-quality data it provides could significantly advance this field. To facilitate future research, we maintain an active repository updated with new literature and open-source projects.
总而言之,这项调查有三个关键贡献:
(a)我们首次提供了端到端自动驾驶的全面分析,包括高层动机、方法论、基准等。我们倡导的不是对单个模块的优化,而是整体设计算法框架的理念,最终目标是实现安全舒适的驾驶。
(b) 我们广泛调查并发方法面临的关键挑战。在调查的 250 多篇论文中,我们总结了主要方面并提供了深入的分析,包括普遍性、语言引导学习、因果混淆等主题。
© 我们涵盖了如何拥抱大型基础模型的更广泛影响和数据引擎。我们相信,这一领域的研究及其提供的大规模高质量数据可以显着推动这一领域的发展。为了促进未来的研究,我们维护一个活跃的存储库,更新新文献和开源项目。
2 METHODS
Fig. 3: Overview of methods in end-to-end autonomous driving. We illustrate three popular paradigms, including two imitation learning frameworks (behavior cloning and inverse optimal control), as well as online reinforcement learning.
图 3:端到端自动驾驶方法概述。我们说明了三种流行的范式,包括两种模仿学习框架(行为克隆和逆最优控制)以及在线强化学习。
The policy π \pi π can output planned trajectories or control signals.策略π可以输出规划轨迹或控制信号。
2.1 Imitation Learning 模仿学习
2.1.1 Behavior Cloning 行为克隆
行为克隆是一种直接模仿人类驾驶行为的技术。图中的流程如下:
- 数据采集:从现实世界中收集驾驶数据,存储在数据缓冲区中。
- 学习策略 π \pi π:使用数据缓冲区中的数据来训练策略 π \pi π,该策略试图模仿人类驾驶员的行为。
- 部署:将训练好的策略 p i pi pi 部署到自动驾驶系统中,使其能够在现实世界中驾驶。
这种方法的优点是简单直接,但缺点是可能会学习到人类驾驶员的错误行为,并且在遇到未见过的情况时表现不佳。
2.I.2 nverse Optimal Control 逆最优控制
逆最优控制试图通过观察人类驾驶行为来推断出潜在的成本函数,然后基于该成本函数来优化驾驶策略。图中的流程如下:
- 数据采集:从现实世界中收集驾驶数据,存储在数据缓冲区中。
- 学习成本 C C C:分析数据缓冲区中的数据,学习出一个成本函数 C C C,该成本函数描述了人类驾驶员在驾驶时考虑的权衡因素。
- 优化策略 τ ∗ \tau^* τ∗:使用学习到的成本函数 C C C 优化出最优轨迹 τ ∗ \tau^* τ∗,然后基于这些轨迹训练策略 π \pi π。
- 部署:将训练好的策略 π \pi π 部署到自动驾驶系统中。
逆最优控制能够更好地理解人类驾驶员的决策过程,从而在复杂环境中表现更好。
2.2 Reinforcement Learning 强化学习
强化学习通过试错来学习最优策略。图中的流程如下:
- 初始策略 π k \pi_k πk:使用初始策略 π k \pi_k πk 与环境交互,收集反馈。
- 更新策略 π k + 1 \pi_{k+1} πk+1:根据从环境中获得的反馈更新策略,目标是最大化长期回报。
- 重复:不断重复上述过程,逐步改进策略,直到收敛到最优策略。
强化学习的优势在于能够通过不断试探和学习适应不同的环境,但其训练过程可能需要大量的计算资源和时间。
总结
- 行为克隆:简单直接,但在新环境中可能表现不佳。[就像小孩看着大人开车,模仿他们的操作来学习开车。]
- 逆最优控制:能够理解人类决策过程,但需要复杂的成本函数推断。[分析大人开车的方式,找到背后的“秘诀”或“原则”,再根据这些原则来教电脑开车。]
- 强化学习:适应性强,但训练时间长且计算资源消耗大。[像小孩自己试着开车,通过不断尝试和犯错,最终学会如何开车。]
对于强化学习来说,作者提到强化学习会执行不安全的操作,这在现实环境中是巨大挑战,因此一般都是模拟技术,此外RL方法在自动驾驶中的局限性。
RL requires an environment that allows potentially unsafe actions to be executed, to collect novel data (e.g., via random actions). Additionally, RL requires significantly more data to train than IL. For this reason, modern RL methods often parallelize data collection across multiple environments [76]. Meeting these requirements in the real world presents great challenges. Therefore, almost all papers that use RL in driving have only investigated the technique in simulation. Most use different extensions of DQN. The community has not yet converged on a specific RL algorithm.
强化学习需要一个允许执行潜在不安全操作的环境,以收集新数据(例如,通过随机操作)。此外,强化学习需要比 IL 多得多的数据进行训练。因此,现代强化学习方法通常会跨多个环境并行数据收集[76]。在现实世界中满足这些要求提出了巨大的挑战。因此,几乎所有在驾驶中使用强化学习的论文都只研究了模拟技术。大多数使用 DQN 的不同扩展。社区尚未就特定的强化学习算法达成一致。
RL has successfully learned lane following on a real car on an empty street [4]. Despite this encouraging result, it must be noted that a similar task was already accomplished by IL three decades prior [3]. To date, no report has shown results for end-to-end training with RL that are competitive with IL. The reason for this failure likely is that the gradients obtained via RL are insufficient to train deep perception architectures (i.e., ResNet) required for driving. Models used in benchmarks like Atari, where RL succeeds, are relatively shallow, consisting of only a few layers [77].
RL 已经成功地在空荡荡的街道上学习了真实汽车的车道跟踪 [4]。尽管取得了这一令人鼓舞的结果,但必须指出的是,IL 在三十年前就已经完成了类似的任务 [3]。迄今为止,还没有报告显示 RL 的端到端训练结果可以与 IL 相媲美。这种失败的原因可能是通过强化学习获得的梯度不足以训练驾驶所需的深度感知架构(即 ResNet)。 RL 取得成功的 Atari 等基准测试中使用的模型相对较浅,仅由几个层组成 [77]。
A challenge in the field is to transfer the findings from simulation to the real world. In RL, the objective is expressed as reward functions, and many algorithms require them to be dense and provide feedback at each environment step. Current works typically use simple objectives, such as progress and collision avoidance. These simplistic designs potentially encourage risky behaviors [80]. Devising or learning better reward functions remains an open problem. Another direction would be to develop RL algorithms that can handle sparse rewards, enabling the optimization of relevant metrics directly. RL can be effectively combined with world models [82, 83, 84], though this presents specific challenges (See Sec. 4.3). Current RL solutions for driving rely heavily on low-dimensional representations of the scene, and this issue is further discussed in Sec. 4.2.2.
该领域的一个挑战是将模拟结果转移到现实世界。在强化学习中,目标被表示为奖励函数,许多算法要求它们是密集的并在每个环境步骤提供反馈。当前的工作通常使用简单的目标,例如进度和避免碰撞。这些简单化的设计可能会鼓励危险行为[80]。设计或学习更好的奖励函数仍然是一个悬而未决的问题。另一个方向是开发可以处理稀疏奖励的强化学习算法,从而直接优化相关指标。强化学习可以有效地与世界模型结合[82,83,84],尽管这带来了特定的挑战(参见第 4.3 节)。当前的 RL 驾驶解决方案严重依赖于场景的低维表示,这个问题将在第 2 节中进一步讨论。 4.2.2.
在强化学习(RL)中,密集奖励是指在每一步环境交互中都会给予反馈的奖励函数。也就是说,代理(agent)在每次采取行动后,都会收到一个即时的奖励信号。这种密集奖励设计有以下特点:
- 频繁反馈:每一步都提供奖励,有助于代理快速了解哪些行为是有益的,哪些是无益的。
- 短期目标优化:代理可以通过不断调整每一步的行为来最大化即时奖励,从而逐步优化整体策略。
密集奖励虽然提供了频繁的反馈,但如果设计不当,可能会导致以下问题:
-
过度优化短期目标:
- 问题:代理可能会为了最大化每一步的即时奖励,而忽视长期安全和策略的整体合理性。
- 例子:如果奖励函数主要关注进度和避免碰撞,代理可能会选择一些快速但潜在危险的路径来快速完成任务,忽视其他安全因素。
-
奖励设计简单化:
- 问题:简单的奖励设计往往只能捕捉一些基本行为(如避免碰撞),但不能全面反映复杂的驾驶环境和决策需求。
- 例子:仅仅奖励进度和避免碰撞,可能会导致代理忽略其他重要因素,如行驶平稳性、乘客舒适度、遵守交通规则等。
-
激励危险行为:
- 问题:在某些情况下,简单的奖励函数可能会意外地激励危险行为,因为代理在尝试最大化即时奖励时,可能会采取一些高风险高回报的行动。
- 例子:如果代理认为在接近碰撞的情况下快速通过某个路段能获得更高的进度奖励,它可能会选择这种高风险行为,从而增加碰撞的风险。
3 BENCHMARKING
Autonomous driving systems require a comprehensive evaluation to ensure safety. Researchers must benchmark these systems using appropriate datasets, simulators, metrics, and hardware to accomplish this. This section delineates three approaches for benchmarking end-to-end autonomous driving systems: (1) real-world evaluation, (2) online or closedloop evaluation in simulation, and (3) offline or open-loop evaluation on driving datasets. We focus on the scalable and principled online simulation setting and summarize realworld and offline assessments for completeness.
自动驾驶系统需要进行全面评估以确保安全。研究人员必须使用适当的数据集、模拟器、指标和硬件对这些系统进行基准测试才能实现这一目标。本节描述了对端到端自动驾驶系统进行基准测试的三种方法:(1)真实世界评估,(2)模拟中的在线或闭环评估,以及(3)驾驶数据集的离线或开环评估。我们专注于可扩展且有原则的在线模拟设置,并总结现实世界和离线评估的完整性。
3.1 Real-world Evaluation 真实世界评估
Early efforts on benchmarking self-driving involved realworld evaluation. Notably, DARPA initiated a series of races to advance autonomous driving. The first event offered $1M in prize money for autonomously navigating a 240km route through the Mojave desert, which no team achieved [85]. The final series event, called the DARPA Urban Challenge, required vehicles to navigate a 96km mock-up town course, adhering to traffic laws and avoiding obstacles [86]. These races fostered important developments in autonomous driving, such as LiDAR sensors. Following this spirit, the University of Michigan established MCity [87], a large controlled real-world environment designed to facilitate testing autonomous vehicles. Besides such academic ventures, industries with the resources to deploy fleets of driverless vehicles also rely on real-world evaluation to benchmark improvements in their algorithms.
自动驾驶基准测试的早期工作涉及现实世界的评估。值得注意的是,DARPA 发起了一系列竞赛来推进自动驾驶。第一项赛事提供了 100 万美元的奖金,奖励自动驾驶穿越莫哈韦沙漠 240 公里的路线,但没有任何团队实现这一目标 [85]。最后的系列活动称为 DARPA 城市挑战赛,要求车辆在 96 公里的模拟城镇路线上行驶,遵守交通法规并避开障碍物 [86]。这些比赛促进了自动驾驶领域的重要发展,例如激光雷达传感器。秉承这种精神,密歇根大学建立了 MCity [87],这是一个大型受控现实世界环境,旨在促进自动驾驶汽车的测试。除了此类学术冒险之外,拥有部署无人驾驶车队资源的行业也依赖现实世界的评估来衡量其算法的改进。
3.2 Online/Closed-loop Simulation 在线/闭环仿真
Conducting tests of self-driving systems in the real world is costly and risky. To address this challenge, simulation is a viable alternative [14, 88, 89, 90, 91, 92]. Simulators facilitate rapid prototyping and testing, enable the quick iteration of ideas, and provide low-cost access to diverse scenarios for unit testing. In addition, simulators offer tools for measuring performance accurately. However, their primary disadvantage is that the results obtained in a simulated environment do not necessarily generalize to the real world (Sec. 4.9.3).
在现实世界中对自动驾驶系统进行测试成本高昂且存在风险。为了应对这一挑战,模拟是一种可行的替代方案[14,88,89,90,91,92]。模拟器有助于快速原型设计和测试,实现想法的快速迭代,并为单元测试提供对不同场景的低成本访问。此外,模拟器还提供了准确测量性能的工具。然而,它们的主要缺点是在模拟环境中获得的结果不一定能推广到现实世界(第 4.9.3 节)。
Closed-loop evaluation involves building a simulated environment that closely mimics a real-world driving environment. The evaluation entails deploying the driving system in simulation and measuring its performance. The system has to navigate safely through traffic while progressing toward a designated goal location. There are four main sub-tasks involved in developing such simulators: parameter initialization, traffic simulation, sensor simulation, and vehicle dynamics simulation. We briefly describe these subtasks below, followed by a summary of currently available open-source simulators for closed-loop benchmarks.
闭环评估涉及构建一个密切模仿真实驾驶环境的模拟环境。评估需要在模拟中部署驱动系统并测量其性能。系统必须在交通中安全导航,同时朝着指定的目标位置前进。开发此类模拟器涉及四个主要子任务:参数初始化、交通模拟、传感器模拟和车辆动力学模拟。我们在下面简要描述这些子任务,然后总结当前可用的闭环基准测试开源模拟器。
We give a succinct overview of end-to-end driving benchmarks available up to date in Table 1. In 2019, the original benchmark released with CARLA [90] was solved with nearperfect scores [5]. The subsequent NoCrash benchmark [123] involves training on a single CARLA town under specific weather conditions and testing generalization to another town and set of weathers. Instead of a single town, the Town05 benchmark [6] involves training on all available towns while withholding Town05 for testing. Similarly, the LAV benchmark trains on all towns except Town02 and Town05, which are both reserved for testing. Roach [21] uses a setting with 3 test towns, albeit all seen during training, and without the safety-critical scenarios in Town05 and LAV. Finally, the Longest6 benchmark [28] uses 6 test towns. Two online servers, the leaderboard (v1 and v2) [13], ensure fair comparisons by keeping evaluation routes confidential. Leaderboard v2 is highly challenging due to the long route length (over 8km on average, as opposed to 1-2km on v1) and a wide variety of new traffic scenarios.
我们在表 1 中简要概述了最新可用的端到端驾驶基准。2019 年,与 CARLA [90] 一起发布的原始基准得到了近乎完美的分数 [5]。随后的 NoCrash 基准 [123] 涉及在特定天气条件下对单个 CARLA 城镇进行训练,并测试对另一个城镇和一组天气的泛化。 Town05 基准 [6] 不是针对单个城镇,而是对所有可用城镇进行培训,同时保留 Town05 进行测试。同样,LAV 基准测试在除 Town02 和 Town05 之外的所有城镇进行,这两个城镇都保留用于测试。 Roach [21] 使用了包含 3 个测试城镇的设置,尽管它们都是在训练期间看到的,并且没有 Town05 和 LAV 中的安全关键场景。最后,Longest6 基准[28]使用了 6 个测试城镇。两个在线服务器,即排行榜(v1 和 v2)[13],通过对评估路线保密来确保公平比较。由于路线长度较长(平均超过 8 公里,而 v1 为 1-2 公里)和各种新的交通场景,Leaderboard v2 极具挑战性。
TABLE 1: Open-source Simulators with active benchmarks for closed-loop evaluation of autonomous driving.
表 1:具有用于自动驾驶闭环评估的主动基准的开源模拟器。
3.3 Offline/Open-loop Evaluation 离线/开环评估
Open-loop evaluation mainly assesses a system’s performance against pre-recorded expert driving behavior. This method requires evaluation datasets that include (1) sensor readings, (2) goal locations, and (3) corresponding future driving trajectories, usually obtained from human drivers. Given sensor inputs and goal locations as inputs, performance is measured by comparing the system’s predicted future trajectory against the trajectory in the driving log. Systems are evaluated based on how closely their trajectory predictions match the human ground truth, as well as auxiliary metrics such as the collision probability with other agents. The advantage of open-loop evaluation is that it is easy to implement using realistic traffic and sensor data, as it does not require a simulator. However, the key disadvantage is that it does not measure performance in the actual test distribution encountered during deployment. During testing, the driving system may deviate from the expert driving corridor, and it is essential to verify the system’s ability to recover from such drift (Sec. 4.9.2). Furthermore, the distance between the predicted and the recorded trajectories is not an ideal metric in a multi-modal scenario. For example, in the case of merging into a turning lane, both the options of merging immediately or later could be valid, but open-loop evaluation penalizes the option that was not observed in the data. Therefore, besides measuring collision probability and prediction errors, a few metrics were proposed to cover more comprehensive aspects such as traffic violations, progress, and driving comfort [125].
开环评估主要根据预先记录的专家驾驶行为来评估系统的性能。该方法需要评估数据集,其中包括(1)传感器读数、(2)目标位置和(3)相应的未来驾驶轨迹(通常从人类驾驶员那里获得)。给定传感器输入和目标位置作为输入,通过将系统预测的未来轨迹与驾驶日志中的轨迹进行比较来衡量性能。根据系统的轨迹预测与人类地面真实情况的匹配程度以及辅助指标(例如与其他智能体的碰撞概率)来评估系统。开环评估的优点是可以使用真实的交通和传感器数据轻松实现,因为它不需要模拟器。然而,主要缺点是它不测量部署过程中遇到的实际测试分布的性能。在测试过程中,驾驶系统可能会偏离专家驾驶走廊,因此必须验证系统从这种漂移中恢复的能力(第4.9.2节)。此外,预测轨迹和记录轨迹之间的距离在多模态场景中并不是一个理想的度量。例如,在并入转弯车道的情况下,立即并道或稍后并道的选项都可能有效,但开环评估会惩罚数据中未观察到的选项。因此,除了测量碰撞概率和预测误差之外,还提出了一些指标来涵盖交通违规、进度和驾驶舒适度等更全面的方面[125]。
This approach requires comprehensive datasets of trajectories to draw from. The most popular datasets for this purpose include nuScenes [126], Argoverse [127], Waymo [128], and nuPlan [14]. All of these datasets comprise a large number of real-world driving traversals with varying degrees of difficulty. However, open-loop results do not provide conclusive evidence of improved driving behavior in closedloop, due to the aforementioned drawbacks [123, 125, 129, 130]. Overall, a realistic closed-loop benchmarking, if available and applicable, is recommended in future research.
这种方法需要综合的轨迹数据集来绘制。用于此目的的最流行的数据集包括 nuScenes [126]、Argoverse [127]、Waymo [128] 和 nuPlan [14]。所有这些数据集都包含大量具有不同难度的现实世界驾驶遍历。然而,由于上述缺点,开环结果并没有提供闭环驾驶行为改善的决定性证据[123,125,129,130]。总体而言,如果可行且适用,建议在未来的研究中采用现实的闭环基准测试。
这里面并不是一个理想的度量包含多个内容的解释。
动态环境缺失:开环评估使用静态数据集,而不考虑实际驾驶过程中环境的动态变化(如突然出现的障碍物、其他车辆的行为等)。在实际驾驶中,环境是不断变化的,驾驶系统需要实时做出反应。
缺乏实时反馈:在实际驾驶中,系统会根据实时反馈进行调整和优化,而开环评估中系统没有这种反馈机制,因此无法评估其在动态环境中的表现。
在实际假设中,各个代理之间都是需要交互的,静态的输入不能很好的反馈,并进行调整和优化,目前主流的数据集如下 nuScenes [126]、Argoverse [127]、Waymo [128] 和 nuPlan [14]。
总结
3.1 现实世界评估 (Real-world Evaluation)
- 定义:在真实世界中对自动驾驶系统进行测试。
- 过程:直接在现实世界的道路和环境中测试自动驾驶车辆的表现。例如,DARPA发起的竞赛和密歇根大学的MCity设施。
- 优点
- 提供最接近真实驾驶环境的测试,能验证系统在真实世界中的实际表现。
- 有助于发现模拟环境中无法预见的问题和挑战。
- 缺点
- 成本高昂,风险较大。
- 受限于现实世界的可控性和安全性,难以测试极端情况。
3.2 闭环评估 (Closed-loop Simulation)
- 定义:在模拟环境中进行动态、交互式的测试,尽可能模仿真实世界驾驶。
- 过程:在模拟器中部署驾驶系统,系统需在动态交通中导航并朝着目标前进。包括参数初始化、交通模拟、传感器模拟和车辆动力学模拟等子任务。
- 优点
- 低成本,安全性高。
- 可快速迭代和测试各种场景,包括极端情况。
- 缺点
- 模拟环境中的结果不一定能完全推广到现实世界,存在一定的现实差距。
3.3 开环评估 (Open-loop Evaluation)
- 定义:基于预录制的专家驾驶行为数据进行评估,不需要动态模拟器。
- 过程:使用包含传感器读数、目标位置和人类驾驶轨迹的评估数据集。系统预测未来轨迹并与人类驾驶日志进行比较。
- 优点
- 实现简单,使用真实的交通和传感器数据,不需要复杂的模拟器。
- 缺点
- 无法测量系统在实际测试分布中的性能。
- 预测轨迹和记录轨迹之间的距离在多模态场景中不是理想的度量标准。
小结
-
环境设置:
- 现实世界评估:在真实道路和环境中进行测试。
- 闭环评估:在高度仿真的模拟环境中进行动态测试。
- 开环评估:基于预录制数据,不需要动态环境。
-
测试内容:
- 现实世界评估:测试系统在真实环境中的实际表现,适用于全面验证。
- 闭环评估:测试系统在动态模拟环境中的表现,适用于快速迭代和验证。
- 开环评估:主要测试系统的轨迹预测能力,适用于基础验证。
-
实施难度:
- 现实世界评估:高成本,高风险,实施难度大。
- 闭环评估:成本较低,安全性高,但需要复杂的模拟器。
- 开环评估:实现简单,成本低,不需要模拟器。
三种评估方法各有优缺点,适用于不同的测试需求。在实际应用中,通常需要结合这三种方法,以全面评估和优化自动驾驶系统的性能。现实世界评估提供最真实的验证,但成本高且有风险;闭环评估提供了安全、快速迭代的环境;开环评估则简单易实现,用于基础验证。
4 CHALLENGES
Following each topic illustrated in Fig. 1, we now walk through current challenges, related works or potential resolutions, risks, and opportunities. We start with challenges in handling different input modalities in Sec. 4.1, followed by a discussion on visual abstraction for efficient policy learning in Sec. 4.2. Further, we introduce learning paradigms such as world model learning (Sec. 4.3), multi-task frameworks (Sec. 4.4), and policy distillation (Sec. 4.5). Finally, we discuss general issues that impede safe and reliable end-to-end autonomous driving, including interpretability in Sec. 4.6, safety guarantees in Sec. 4.7, causal confusion in Sec. 4.8, and robustness in Sec. 4.9.
按照图 1 所示的每个主题,我们现在将介绍当前的挑战、相关工作或潜在的解决方案、风险和机遇。我们从处理不同输入方式的挑战开始。 4.1,然后是第 4.1 节中关于高效政策学习的视觉抽象的讨论。 4.2.此外,我们还介绍了学习范式,例如世界模型学习(第 4.3 节)、多任务框架(第 4.4 节)和策略蒸馏(第 4.5 节)。最后,我们讨论阻碍安全可靠的端到端自动驾驶的一般问题,包括第二节中的可解释性。 4.6、安全保障4.7,第 4 节中的因果混乱。 4.8,以及第 4.8 节的稳健性。 4.9.