Lane_GCN翻译

摘要

我们提出了一种运动预测模型,该模型利用了一种新颖的结构化地图表示以及演员-地图交互。 我们不是将矢量化地图编码为光栅图像,而是从原始地图数据构建车道图以明确保留地图结构。 为了捕获车道图的复杂拓扑和长距离依赖关系,我们提出了 LaneGCN,它使用多个邻接矩阵和沿车道扩张扩展了图卷积。 为了捕捉演员和地图之间的复杂交互,我们利用了一个融合网络,该网络由四种类型的交互组成,演员对车道、车道对车道、车道对演员和演员对演员。 在 LaneGCN 和 actor-map 交互的支持下,我们的模型能够预测准确且真实的多模态轨迹。
我们的方法在大规模 Argoverse 运动预测基准上明显优于最先进的方法。

引言

自动驾驶具有彻底改变交通运输的潜力。 自动驾驶汽车 (SDV) 必须准确预测其他交通参与者的未来动作才能安全运行。 高清地图(HD 地图)为运动预测提供了极其有用的几何和语义信息,因为演员的行为在很大程度上取决于地图拓扑。 例如,当附近没有左转车道时,车辆不太可能左转。 有效利用高清地图对于运动预测模型产生合理且准确的轨迹至关重要。
第一次尝试利用 HD 地图作为启发式 [42]。 演员首先与车道相关联,然后根据地图拓扑生成所有候选运动路径。 这样,预测结果就受到了地图的约束。 然而,这种方法无法捕获罕见和不合规的行为,虽然不太可能,但可能对安全至关重要。
最近的工作 [38,14,29,3,23,7,5,6] 使用机器学习从地图中学习语义表示。 为了使神经网络能够处理高清地图,地图数据被光栅化以创建类似图像的光栅输入。 地图拓扑被隐式编码为线、掩码或颜色,然后由 2D 卷积神经网络 (CNN) 处理。 这些学习到的地图特征可以为运动预测提供有用的上下文信息。 然而,这些方法有两个缺点。 第一的,光栅化过程不可避免地会导致信息丢失。 其次,地图具有复杂拓扑结构的图结构,2D 卷积可能非常低效地捕获。 例如,感兴趣的车道可以在车道方向上延伸很长的范围。 为了捕捉这些信息,感受野必须非常大,不仅要覆盖预期区域,还要覆盖车道外的大片区域。 此外,相同或相反方向的车道对具有完全不同的语义和依赖性,尽管两对车道在空间上彼此接近。
在本文中,我们做出了三个主要贡献:(1)我们没有使用光栅化,而是从矢量化地图数据构建车道图,从而避免信息丢失。
然后我们提出了车道图卷积网络(LaneGCN),它有效地捕获了车道图的复杂拓扑和长距离依赖关系。 (2) 基于 LaneGCN,我们的运动预测模型捕获了所有可能的actor-map 交互。 特别是,我们将actor和lane都表示为图中的节点,并使用一维CNN和LaneGCN分别提取actor和lane节点的特征,然后利用空间注意力和另一个LaneGCN对四种类型的交互进行建模:actor- 到车道、车道到车道、车道到演员和演员到演员。 我们建议读者参考图 1 来说明我们的方法。 (3) 我们在大规模 Argoverse 运动预测基准 [9] 上进行了实验,并显示出对最先进技术的显着改进。

图 1. 我们的方法:我们从原始地图数据构建车道图,并使用 LaneGCN 提取地图特征。 同时,ActorNet 从观察到的过去轨迹中提取演员特征。 然后我们使用 FusionNet 对演员本身与地图之间的交互进行建模,并预测未来的轨迹

相关工作

在本节中,我们回顾了地图表示、自治任务的学习地图表示和图卷积网络方面的工作。
地图表示:高清地图捕捉车道几何形状以及它们的连通性。 [21] 建议将车道边界参数化为一组折线,并利用循环神经网络 (RNN) 从传感器数据中提取它们。
[28] 进一步将折线表示扩展到更结构化的参数化。[22] 建议将未知车道图参数化为有向无环图模型 (DAG),而不是对每条车道的几何形状进行建模,该模型更加稳健并且能够处理更复杂的拓扑,如分支。 除了对几何进行建模之外,[33,32] 在图形模型中对不同的车道类型进行编码,以更好地利用它们的外观特征。 [11] 使用无向图参数化道路布局,展示了在大规模城市规模道路拓扑中的出色表现。
自治的学习地图表示:基于光栅化的地图表示已被广泛使用。 [14,12,10] 将地图元素(道路、人行横道)栅格化为图层,并使用不同颜色对车道方向进行编码。 [3,8] 在光栅化鸟瞰图像中编码路线图、交通灯和限速。 [23] 在自上而下的空间网格中对静态实体、动态实体和语义地图信息的历史进行编码。 HDNet [38] 利用道路掩码作为输入特征来提高目标检测性能。 光栅化地图已与 LiDAR 点云融合,以执行联合感知和预测 [29,4,27] 以及端到端运动规划 [40,35,41]。 虽然栅格地图表示很流行,但另一种方法是使用矢量化地图特征。 [9] 使用沿中心线的距离和中心线的偏移量作为最近邻回归和 LSTM [20] 模型的输入。 [34,1] 使用 1D CNN 和 LSTM 对车道特征进行编码。 相比之下,我们的模型从矢量化地图数据构建车道图,并使用提出的 LaneGCN 提取多尺度拓扑特征。 在并发工作 VectorNet[16] 中,两个图网络分别用于提取actor/lane 特征和建模全局交互。 VectorNet 和 LaneGCN 之间有两个主要区别。 首先,VectorNet 使用具有无向全连接的普通图网络,同时我们按照地图拓扑构建稀疏连接的车道图,并提出任务特定的多类型和扩张图算子。 其次,VectorNet 使用折线级节点进行交互,而我们的 LaneGCN 使用折线段作为地图节点来捕获更高的分辨率。
请注意,在我们的方法中,不同折线中的节点可以通过扩张连接相互交互。
**图卷积网络:**图卷积网络 (GCN) [36,19,15,26,13,30] 已被证明对图表示学习有效。 他们通过所谓的图卷积将网格上的 2D 卷积推广到任意图。 与对局部网格中的邻居进行操作的 2D 卷积不同,图卷积对由图结构定义的相邻节点进行操作,通常以邻接矩阵的形式描述。 我们从 GCN 中汲取灵感并提出 LaneGCN,这是专为车道图设计的专用版本。 在我们的模型中,我们引入了多个邻接矩阵和多尺度扩张卷积,它们可以有效地捕获车道图的复杂拓扑和远程依赖关系。

运动预测的车道图表示

在本节中,我们提出了一种新颖的运动预测模型,该模型学习结构化地图表示并融合交通参与者和高清地图的信息,同时考虑到它们的相互作用。 下面,我们将解释构成我们模型的四个模块,即如何使用 ActorNet 计算角色特征,如何表示通过 MapNet 映射,如何将来自演员和地图的信息与 FusionNet 融合,最后如何通过 Prediction Header 预测最终的运动预测轨迹。 我们建议读者参考图 2 以了解整体架构。
图 2. 整体架构:我们的模型由四个模块组成。 (1) ActorNet 接收过去的actor轨迹作为输入,并使用一维卷积提取actor节点特征。
(2) MapNet 从高清地图构建车道图,并使用 LaneGCN 来精确车道节点特征。 (3) FusionNet 是 4 个交互块的堆栈。 演员到车道块融合了从演员节点到车道节点的实时交通信息。 车道到车道块在车道图上传播信息并更新车道特征。 车道到演员块融合了从车道节点到演员节点的更新地图信息。 演员到演员块执行演员之间的交互。 我们对车道到车道块使用另一个 LaneGCN,对其他块使用空间注意层。 (4) 预测头使用融合后的actor特征来产生多模态轨迹。

3.1ActorNet: Extracting Traffic Participant Representations
我们假设演员数据由观察到的场景中所有演员过去的轨迹组成。 每个轨迹表示为一系列位移 {Δp -(T -1) , . . . , ∆p -1 , ∆p 0 },其中∆p t 是从时间步长 t − 1 到 t 的二维位移,T 是轨迹大小。 所有坐标都在鸟瞰图 (BEV) 中定义,因为这是交通代理感兴趣的空间。 对于尺寸小于 T 的轨迹,我们用零填充它们。 我们添加一个二元 1 × T 掩码来指示每个步骤的元素是否被填充,并将其与轨迹张量连接起来,从而产生大小为 3 × T 的输入张量。
虽然 CNN 和 RNN 都可以用于时间数据,但这里我们使用一维 CNN 来处理轨迹输入,因为它在提取多尺度特征方面的有效性和并行计算的效率。 ActorNet 的输出是一个时间特征图,其 t = 0 处的元素用作演员特征。 该网络有 3 组/尺度的 1D 卷积。 每组由 2 个残差块 [18] 组成,步长为第一个块为 2。然后我们使用特征金字塔网络(FPN)[31] 来融合多尺度特征,并应用另一个残差块来获得输出张量。 对于所有层,卷积核大小为 3,输出通道数为 128。
每次卷积后都使用层归一化 [2] 和修正线性单元 (ReLU) [17]。
图 3. 从矢量化地图数据构建车道图。 左:感兴趣的车道中心线,其前身、后继、左右邻居分别用红色、橙色、蓝色、紫色和绿色线表示。 每条中心线都以一系列 BEV 点(空心圆)的形式给出。 右图:带有示例车道节点的派生车道图。 感兴趣的车道节点、其前驱、后继、左右邻居分别用红色、橙色、蓝色、紫色和绿色圆圈表示。 有关更多信息,请参阅第 3.2 节。
3.2 MapNet: Extracting Structured Map Representation
我们使用一种称为 MapNet 的新型深度模型来从矢量化地图数据中学习结构化地图表示。 这与以前的方法形成对比,这些方法将地图编码为光栅图像并应用 2D 卷积来提取特征。 MapNet 包括两个步骤:(1)从矢量化地图数据构建车道图; (2) 将我们新颖的 LaneGCN 应用于车道图以输出地图特征。
地图数据:在本文中,我们采用一种简单形式的矢量化地图数据作为高清地图的表示。 具体来说,地图数据表示为一组车道及其连通性。 每条车道都包含一条中心线,即一系列 2D BEV 点,它们沿车道方向排列(见图 3,顶部)。 对于任意两条可直接到达的车道,给出了 4 种类型的连接:前驱、后继、左邻居和右邻居。 给定一条车道 A,它的前驱和后继分别是可以直接到达 A 和从 A 出发的车道。 左邻右邻是指在不违反交通规则的情况下可以直接到达的车道。 这种简单的地图格式为运动预测提供了基本的几何和语义信息,因为车辆通常会参考车道中心线及其连通性来规划路线。
车道图构建:我们不是将地图编码为光栅图像,而是从地图数据中导出车道图作为输入。 在设计车道图时,我们期望它的节点具有良好的分辨率。 给定任何演员位置,我们查询车道图并找到其最近的节点以检索准确的地图信息。 从这个角度来看,直接使用车道中心线作为节点并不是最佳选择。
我们请读者参考图 3,了解车道图构建的示例。 我们首先将车道节点定义为由中心线的任意两个连续点(图 3 中的灰色圆圈)形成的直线段。 车道节点的位置是其两个端点的平均坐标。 根据车道中心线之间的连接,我们还为车道节点推导出 4 种连接类型,即前驱、后继、左邻居和右邻居。 对于任何车道节点 A,其前驱和后继被定义为分别可以到达 A 或从 A 行进的相邻车道节点。
请注意,如果 l B 是 l A 的前驱,则可以从 l B 的最后一个通道节点到达 l A 的第一个通道节点。 左右邻居被定义为空间上最近的车道节点,分别由左侧和右侧相邻车道的 2 距离测量。 我们用 V ∈ R N ×2 表示车道节点,其中 N 是车道节点的数量,V 的第 i 行是第 i 个节点的 BEV 坐标。 我们用 4 个邻接矩阵 {A i } i∈{pre,suc,left,right} 表示连通性,其中 A i ∈ R N ×N 。
我们将 A i,jk 表示为 A i 的第 j 行第 k 列中的元素。 如果节点 k 是节点 j 的 i 类型邻居,则 A i,jk = 1。
**LaneConv 算子:**处理车道图的自然算子是图卷积 [36]。 最广泛使用的图卷积算子 [26] 定义为 Y = LXW ,其中 X ∈ R N ×F 是节点特征,W ∈ R F ×O 是权重矩阵,Y ∈ R N ×O 是输出。 图拉普拉斯矩阵 L ∈ R N ×N 采用 L = D -1/2 (I +A)D -1/2 的形式,其中 I、A 和 D 分别是单位矩阵、邻接矩阵和度矩阵。 I 和 A 占自连接和不同节点之间的连接。 所有连接共享相同的权重 W ,并且使用度矩阵 D 对输出进行归一化。 然而,由于以下原因,这种普通图卷积在我们的案例中效率低下。 首先,不清楚什么样的节点特征会保留车道图中的信息。 其次,单个图拉普拉斯算子无法捕获连接类型,即丢失连接类型携带的方向信息。 第三,在这种形式的图卷积中处理长距离依赖并不简单,例如,类似扩张卷积。 受这些挑战的启发,我们介绍了我们为车道图专门设计的新颖算子,称为 LaneConv。
节点特征:我们首先定义车道节点的输入特征。 每个车道节点对应一条中心线的直线段。 为了对所有车道节点信息进行编码,我们需要同时考虑相应线段的形状(大小和方向)和位置(中心坐标)。 我们将节点特征参数化如下,
公式(1)
其中 MLP 表示多层感知器,两个下标分别表示形状和位置。 v i 是第 i 个车道节点的位置,即两个端点之间的中心, v i start 和 v i end 是节点 i 的起点和节点的 BEV 坐标端点,x i 是节点特征矩阵 X 的第 i 行,表示第 i 个车道节点的输入特征。
LaneConv:上面的节点特征只捕获了一条线段的局部信息。 为了更大规模地聚合车道图的拓扑信息,我们设计了以下 LaneConv 算子
公式(2)
其中A i 和W i 分别是第i 个连接类型对应的邻接矩阵和权重矩阵。 由于我们从车道的起点到终点对车道节点进行排序,因此 A suc 和 A pre 是通过将单位矩阵向右上方(非零超对角线)和左下方(非零次对角线)移动一步而获得的矩阵。
A suc 和 A pre 可以传播来自前向和后向邻居的信息,而 A left 和 A right 允许信息从跨车道邻居流动。 不难看出,我们的 LaneConv 建立在通用图卷积之上,并编码了更多几何(例如,连接类型/方向)信息。 正如我们的实验所示,这比普通图卷积有所改进。
Dilated LaneConv:由于运动预测模型通常会在几秒的时间范围内预测演员的未来轨迹,因此高速的演员可能会移动很远的距离。 因此,该模型需要捕捉沿车道方向的长距离依赖性以进行准确预测。 在常规网格图中,扩张的卷积算子 [39] 可以通过扩大感受野来有效地捕获远程依赖性。 受这个算子的启发,我们提出了扩张的 LaneConv 算子来实现不规则图的类似目标。
特别地,k-dilation LaneConv 算子定义如下,
公式(3)
其中 A k pre 是 A pre 的第 k 个矩阵幂。 这允许我们直接沿车道传播信息 k 步,k 是一个超参数。 由于 A k pre 是高度稀疏的,因此可以使用稀疏矩阵乘法有效地计算它。 请注意,扩张的 LaneConv 仅用于前驱和后继,因为长距离依赖主要沿着车道方向。
LaneGCN:在扩张的 LaneConv 的基础上,我们进一步提出了一个多尺度的 LaneConv 算子,并用它来构建我们的 LaneGCN。 结合方程。 (2) 和 (3) 有多个扩张,我们得到一个多尺度 LaneConv 算子,扩张大小为 C 如下
公式(4)
其中 k c 是第 c 个膨胀大小。 我们表LaneConv(k 1 , · · · , k C ) 这个多尺度层。 LaneGCN的架构如图4所示。网络由4个LaneConv 残差 [18] 块,它们是一个 LaneConv(1, 2, 4, 8, 16, 32) 和一个线性层的堆栈,以及一个快捷方式。 所有层都有 128 个特征通道。 在每个 LaneConv 和线性层之后使用层归一化 [2] 和 ReLU [17]。
图 4. LaneGCN 架构。 我们的 LaneGCN 是 4 个多尺度 LaneConv 残差块的堆栈,每个残差块由一个 LaneConv(1,2,4,8,16,32) 和一个带有残差连接的线性层组成 [18]。 所有层都有 128 个特征通道。
图 4. LaneGCN 架构。 我们的 LaneGCN 是 4 个多尺度 LaneConv 残差块的堆栈,每个残差块由一个 LaneConv(1,2,4,8,16,32) 和一个带有残差连接的线性层组成 [18]。 所有层都有 128 个特征通道。
3.3 FusionNet
在本节中,我们提出了一个网络来融合分别由 ActorNet 和 MapNet 给出的演员和车道节点的信息。 演员的行为在很大程度上取决于其上下文,即其他演员和地图。 尽管之前的工作已经探索了演员之间的互动,但演员与地图之间的互动以及演员之间以地图为条件的互动受到的关注却少得多。 在我们的模型中,我们使用空间注意力和 LaneGCN 来捕获一组完整的 actor-map 交互(见图 2)。
我们构建了一个由四个融合模块组成的堆栈来捕获演员和车道节点之间的所有信息流,即演员到车道 (A2L)、车道到车道 (L2L)、车道到演员 (L2A) 和演员到演员 (A2A)。 直观地,A2L 将实时交通信息引入车道节点,例如车道的堵塞或使用情况。 L2L 通过在车道图上传播交通信息来更新车道节点特征。 L2A 将更新的地图特征与实时交通信息融合回参与者。 A2A 处理演员之间的交互并产生输出演员特征,然后预测头将这些特征用于运动预测。
我们使用另一个 LaneGCN 实现 L2L,它具有与我们的 MapNet 中使用的架构相同的架构(参见第 3.2 节)。 下面我们详细介绍其他三个模块。 我们为 A2L、L2A 和 A2A 开发了一个空间注意力层 [37]。 注意层以相同的方式应用于三个模块中的每一个。 以A2L为例,给定一个actor节点i,我们将其上下文通道节点j的特征聚合如下
公式(5)
其中 x i 是第 i 个节点的特征,W 是权重矩阵,φ 是层归一化和 ReLU 的组成,并且 Δ ij = MLP(v j -v i ),其中 v 表示节点位置。
上下文节点被定义为与参与者节点 i 的 2 距离小于阈值的车道节点。 A2L、L2A 和 A2A 的阈值分别设置为 7、6 和 100 米。 A2L、L2A 和 A2A 各有两个残差块,由提出的注意力层和线性层的堆栈以及残差连接组成。 所有层都有 128 个输出特征通道。
3.4 预测头
以融合后的actor 特征作为输入,多模态预测头输出最终的运动预测。 对于每个参与者,它预测 K 个可能的未来轨迹及其置信度分数。 header 有两个分支,一个回归分支预测每个模式的轨迹,一个分类分支预测每个模式的置信度分数。 对于第 m 个角色,我们在回归分支中应用一个残差块和一个线性层来回归 BEV 坐标的 K 个序列:
公式(6)
其中 p km,i 是在第 i 个时间步长处预测的第 k 个模式的第 m 个参与者的 BEV 坐标。 对于分类分支,我们将 MLP 应用于 p km,T − p m,0 以获得 K 个距离嵌入。 然后我们将每个距离嵌入与演员特征连接起来,应用一个残差块和一个线性层来输出 K 个置信度分数,O m,cls = (c m,0 , cm,1 , …, cm,K−1 )。
3.5 学习
由于所有模块都是可微的,我们可以以端到端的方式训练模型。 我们使用分类和回归损失的总和来训练模型
公式(7)
其中α = 1.0。 给定演员的 K 个预测轨迹,我们找到一个正轨迹 k̂,它具有最小的最终位移误差,即在最后时间步预测位置和真实位置之间的欧几里德距离。
对于分类,我们使用最大边距损失:
公式(8)
其中 是边际,M 是演员的总数。 对于回归,我们在所有预测的时间步长上应用平滑的 1 损失: 公式(9) where p ∗ t is the ground truth BEV coordinates at time step t, reg(x) = the i-th element of x, and d(x i ) is the smooth1 loss defined as
公式(10)

4实验评估

我们在大规模 Argoverse [9] 运动预测基准上评估我们的模型,该基准是公开可用的并提供矢量化地图数据。 我们首先将我们的模型与最先进的模型进行比较,并在所有指标上显示出显着的改进。 然后我们对架构和 LaneConv 算子进行消融研究,并展示我们模型设计选择的优势。 最后,我们展示了定性结果并讨论了未来的方向。
4.1 实验设置
数据集:Argoverse [9] 是一个运动预测基准,在匹兹堡和迈阿密收集了超过 3 万个场景。 每个场景都是以 10 HZ 采样的帧序列。 每个序列都有一个有趣的对象,称为“代理”,任务是在未来 3 秒的范围内预测代理的未来位置。 序列分为训练集、验证集和测试集,分别有 205942、39472 和 78143 个序列。 这些分裂没有地理重叠。 对于训练和验证集,每个序列持续 5 秒。 前两秒用作输入数据,其余 3 秒用作模型预测的真实情况。 对于测试集,仅提供前 2 秒。 每帧都作为场景中所有对象的质心坐标给出。 演员数据是 20 个时间步长的轨迹。 地图数据是一组车道中心线及其连通性。 我们以第 3.1 节和第 3.2 节中描述的方式使用 actor 和地图数据,没有任何其他预处理步骤。 我们没有使用基准提供的其他地图数据,例如光栅化可行驶区域图和地面高度图。
指标:我们采用了两个广泛使用的运动预测指标,平均位移误差 (ADE) 被定义为预测位置和真实位置之间的 2 距离,在所有步骤上取平均值。 最终位移误差 (FDE) 被定义为预测范围最后一步预测位置和真实位置之间的 2 距离。 由于运动预测本质上是多模态的,Argoverse 使用前 K 个预测的最小 ADE (minADE) 和最小 FDE (minFDE) 作为指标。 当 K=1 时,minADE 和 minFDE 等于确定性 ADE 和 FDE。 Argoverse 基准测试允许最多 6 个预测,在线服务器使用 minFDE 对条目进行排序,K=6。 对于 K=1 和 K=6,我们使用 minADE 和 minFDE 作为主要指标。 在将我们的模型与排行榜上的*条目进行比较时,我们还显示了未命中率 (MR),它是最终位置距地面实况 2.0 米以上的预测(最佳模式)的比率。
实现细节:我们使用与代理的距离小于 100 米的所有演员和车道作为输入。 我们模型中的坐标系是以 t = 0 的代理位置为中心的 BEV。我们使用从 t = -1 的代理位置到 t = 0 的代理位置的方向作为 x 正轴。 我们在 4 个 TITAN-X GPU 上训练模型,批量大小为 128,使用 Adam [25] 优化器,初始学习率为 1 × 10 -3 ,在 32 个时期衰减到 1 × 10 -4 。
训练过程在 36 个时期结束,大约需要 11.5 小时。 我们所有的结果都基于相同的模型,其架构和超参数在第 3 节中描述。、
4.2结果
与最新技术的比较:我们将我们的模型与 Argoverse 运动预测排行榜上的四个*条目和两个官方基线进行比较。 我们在提交 ECCV 时提交我们的结果(2020/03/15)。 K=1 和 K=6 时的指标是 minADE、minFDE 和 MR,K=6 时的排行榜由 minFDE 排名。 如表 1 所示,我们的模型在所有指标上都明显优于所有其他模型。 在比较的方法中,uulm-mrm 使用光栅化方法对输入数据进行编码 [12,14]。 它们用合成图像表示演员状态、车道和可行驶区域,然后由 2D CNN 处理。 在这种方法中,地图拓扑和角色-地图交互都是通过 2D 卷积隐式学习的。 相比之下,我们的模型明确地学习结构化地图特征并执行演员地图融合。 Jean 和 cxx 使用 1D CNN 和/或 LSTM 对演员和车道进行编码,并使用注意力 [37] 来融合特征。 在他们的模型中,车道是独立编码的,因此不会捕获全局地图拓扑。 此外,没有演员到车道和车道到车道融合。 相比之下,我们的模型使用 LaneConv 来学习车道特征,它捕获车道图的多尺度拓扑。
每个模块的重要性:在表 2 中,我们展示了使用 ActorNet 作为基线并逐步添加更多模块的结果。 从结果中可以得出三个观察结果。 首先,所有模块都提高了模型的性能,证明了 LaneGCN 和我们整体架构的有效性。 第二,从参与者到地图的信息流带来了有用的交通信息,这有利于运动预测性能,因为 A2L 和 L2L 的结合显着优于仅 L2A。 第三,A2L、L2L和L2A也促进了actor之间的交互,这可以从将A2A添加到这个组合中(从第4行到第5行)与单独在ActorNet中添加A2A(从第1行到第2行)相比获得较小的收益可以看出 )。 直观地说,不同参与者的信息在车道图上传播,并导致有效的地图条件交互。
车道图算子:在表 3 中,我们展示了车道图算子的消融研究结果。 基线模型使用 A2L、L2L 和 L2A 的组合。 我们从vanilla图卷积(GraphConv)开始,评估加入LaneConv块(见图4)的每个组件的效果,包括残差块、多类型连接和扩张。 最后一行是我们模型中使用的 LaneConv(表 2 的第四行)。 所有这些组件都显着提高了性能。 残差块只增加了大约 7% 的参数,但有效地促进了训练。 多类型连接和扩张都显着提高了性能,证明了 LaneConv 相对于普通图卷积的明显优势。
定性结果:在图 5 中,我们定性地将我们的模型与其他方法在 4 个困难案例上进行了比较。 其他模型的结果改编自 Argoverse 运动预测竞赛 [1] 的幻灯片。 由于示例来自测试集,我们有无法访问标签,在我们的结果中,我们没有显示真实轨迹。 第一行显示基线错过模式的情况。 虽然其他方法无法捕获右转预测,但我们的模型产生了一种很好地遵循右转中心线的模式。 第二行显示了代理在前 2 秒内等待执行无保护左转的情况。 由于缺乏演员运动历史,地图对于模型产生合理的轨迹很重要。
其他模型产生不同的轨迹,其中一些不符合交通规则。 相比之下,我们的模型根据车道拓扑生成合理的轨迹。 第三行显示了汽车减速并在十字路口停下的情况。 我们的模型产生的模式比基线和所有模式合理地遵循车道的减速更多。 第四行显示了极端加速的情况。 没有一个模型能很好地捕捉到这种情况,可能是因为没有足够的信息来做出这种预测。
总的来说,这些结果表明 LaneGCN 有效地学习了结构化地图表示,模型使用这些表示来预测现实轨迹。 改进模型的一种潜在方法是将更多地图信息合并到车道图中。
目前我们的模型使用中心线及其连通性。 其他地图信息,如交通灯和交通标志,为运动预测提供了有用的信息,图 5 中的第二个和第三个案例很好地说明了这一点。为了考虑新的地图数据,我们的模型可以通过引入新的 节点和连接。 我们将在未来的工作中探索这个方向。

5结论

结论在本文中,我们提出了一种新颖的运动预测模型来学习车道图表示并执行一组完整的演员-地图交互。 我们没有使用栅格化地图作为输入,而是从矢量化地图数据构建车道图,并提出 LaneGCN 来提取地图拓扑特征。 我们使用空间注意力和 LaneGCN 来融合演员和车道的信息。 我们在大规模 Argoverse 运动预测基准上进行实验。 我们的模型明显优于最先进的模型。 未来我们计划探索整合其他地图数据。

上一篇:车道线检测研究


下一篇:invalid credential, access_token is invalid or not latest hint(微信 上传图片返回 error)