4篇cvpr2021 轨迹预测论文
- 1. Introvert: Human Trajectory Prediction via Conditional 3D Attention
- 2. SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction
- 3. Interpretable Social Anchors for Human Trajectory Forecasting in Crowds
- 4. Pedestrian and Ego-vehicle Trajectory Prediction from Monocular Camera
- 1.Introvert: Human Trajectory Prediction via Conditional 3D Attention Introvert: 通过条件3D注意预测人类轨迹
- 2. SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction 用于行人轨迹预测的稀疏图卷积网络
- 3.Interpretable Social Anchors for Human Trajectory Forecasting in Crowds
1. Introvert: Human Trajectory Prediction via Conditional 3D Attention
2. SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction
3. Interpretable Social Anchors for Human Trajectory Forecasting in Crowds
4. Pedestrian and Ego-vehicle Trajectory Prediction from Monocular Camera
1.Introvert: Human Trajectory Prediction via Conditional 3D Attention Introvert: 通过条件3D注意预测人类轨迹
摘要:
预测人类轨迹是社交机器人和自动驾驶汽车等自主移动平台的重要组成部分。人类的轨迹既受环境的物理特征的影响,也受与他人社会互动的影响。尽管近年来对人的路径预测的研究激增,但大部分的研究都集中在静态场景信息上,无法充分利用场景丰富的动态视觉信息。
在本工作中,我们提出了一个 Introvert模型,该模型基于人的观察轨迹和动态场景背景,
通过工作在输入视频上的条件3D视觉注意机制捕获人的路径。
Introvert通过观察动态场景而不是与他人交流来推断环境约束和社会互动,因此,其计算成本与目标人周围的拥挤程度无关。
此外,为了关注每个人的相关交互和约束,Introvert将其三维注意力模型设定在目标人的观测轨迹上,提取并关注相关的时空基元。我们在五个公开数据集上的实验表明,内向者改善了目前的预测误差。
1. Introduction
预测人类在动态环境(如街道、机场、购物中心和运动场)中的未来轨迹是计算机视觉的一项重要任务,其应用领域包括自动驾驶、人-机器人交互、城市安全和广告等[50,11,48,21,15]。然而,预测人类的运动是一个极其困难的问题,因为身体、社会和心理因素共同影响着人们的运动轨迹。特别是,当我们在一个环境中移动时,我们会避免物理限制和障碍,遵循地标,给附近的人让路,遵循社会规范,并根据环境的变化改变我们的轨迹。这激发了近年来的大量工作,旨在为人类轨迹预测建模并纳入各种影响因素[1,39,23,13]。
Prior Works and Challenges. 早期的研究[14,9,10,24,25,30,36,4,49,46,51,42,53]设计了能量函数来模拟人类与人类的互动,也被称为“社会力量”。尽管这些方法相对成功,但它们需要仔细的特征和能量功能设计,通常只能捕捉简单的交互,而不能捕捉拥挤环境中的复杂交互。为了减轻这些限制,最近的方法提出了利用深度神经网络的进步的数据驱动方法。特别是,基于循环神经网络(RNN)的序列预测方法通过RNN对每个人的轨迹进行建模,RNN的潜在状态捕获了人类的运动,然后是社会池化,允许附近轨迹的循环模型共享它们的状态[1,13]。然而,它们无法在给予附近轨迹同样重要权重的情况下,捕获更远的人对目标轨迹的影响。为了克服这些局限性,基于注意力的模型被集成到rnn[39,3]和时空图[41,40,33,20]中,通过调整每个目标人的邻居的重要性来衡量不同的轨迹。然而,上面讨论的大多数方法只依赖于运动学数据,其中只包含场景中移动的agent的信息。
鉴于视频包含了丰富的关于场景物理配置和导航约束的信息,一些作品已经尝试使用场景的视觉上下文结合运动学数据来进行更有效的预测。这是通过将所有rnn的状态与通过cnn提取的当前帧的视觉特征连接起来实现的40,26,41,然后通过一个注意力模型来选择相关特征[39,40]。然而,现有作品面临着多重挑战。
首先,当前的方法提取的视觉信息通常是共享的,对于所有在环境中移动的人来说都是相同的。然而,在实践中,每个人的轨迹取决于他/她移动的地形区域,当前位置和预期目的地之间的物理约束,以及与路径相关的其他人。换句话说,场景的不同部分和视觉特征有不同的重要性,这取决于目标人。
其次,通过一次编码一帧得到的视觉特征无法捕获复杂的交互和社会规范,这就是为什么现有的方法需要通过将运行在运动学数据上的rnn的状态池化来整合社会交互。
更重要的是,从计算的角度来看,在推理过程中,首先需要对场景中的所有人运行一个人检测和跟踪算法,然后使用最近邻图或注意力连接rnn,从而能够预测目标人的轨迹。这使得现有的方法不能在推断时实时运行,特别是在拥挤的环境中,有很多人,但只有一个或几个感兴趣的目标。
Paper Contributions. 在本文中,我们使用条件三维视觉注意机制开发了一个有效的人体轨迹预测框架,解决了上述挑战。
我们认为,视频本身(不是一个单独的帧)包含了所有必要的信息,关于人类的运动和相互作用,以及动态约束,如移动的车辆,和静态约束,如建筑和人行道的环境。这可以从运动轨迹是从视频中提取的事实中看出,因此,不可能包含比视频本身更多的信息。
因此,我们不是通过连接场景中人类轨迹附近或所有循环模型来建模人类交互,而是利用视频来提取三维视觉交互信息(2个空间维度和1个时间维度)。
这消除了对场景中每个人运行检测和跟踪算法的需要,因此,提高了测试时间的效率,在那里只需要视频和目标人的跟踪。
我们开发了一种序列对序列的方法,该方法由两个并行编码流和一个解码流组成,前者收集与目标人体相关的三维视觉和运动学信息,后者预测目标人体未来的轨迹。
为了关注每个人的相关社会互动和物理约束,我们的视觉编码器使用了一个有条件的3D注意机制,该机制接收输入视频,并对目标人的观测轨迹进行条件反射,提取时空 primitives并学习处理信息量最大的 primitives。这些提取的 primitives可以是人行道的一部分,很少的车辆,远处的地标,以及场景中附近或远处的人。
在UCY[27]和ETH[35]数据集上的实验表明,该方法显著提高了现有性能,5个数据集上的平均预测误差从0.41降低到0.34。
2. Related Works
3. Trajectory Prediction via Conditional 3D Attention
在本节中,我们开发了一个用于人类轨迹预测的序列到序列框架,该框架利用视频数据直接推断使用条件3D注意机制的人类依赖交互。
3.1. Problem Settings**
轨迹预测是在给定人类先前的位置和场景的视觉信息的情况下,估计人类未来的位置。
假设我们有多个训练视频,每个视频包含多个tf帧的人体轨迹。与之前的工作类似,我们假设每个训练视频都经过一个人检测和跟踪算法的预处理,以获得tf视频帧中每个人的空间坐标(在测试期间,我们的方法只需要目标人的轨迹)。
我们用
表示人p在坐标系t的二维位置。假设我们观察从第一帧到到的轨迹和场景,目标是预测从+ 1到tf帧的轨迹。
对于一个人p,我们分别用表示观测到的位置和未来位置的顺序
我们也用Vo= (I1,…,Ito)表示观察帧的序列,对应于场景的俯视图或角度视图视频帧
3.2. Overview of Proposed Framework**
为了解决人体轨迹预测问题,我们利用编解码器体系结构建立了一种新的序列对序列模型。
我们的模型由两个并行编码器组成:一个是运动编码器,一个是视觉编码器,见图1。
运动编码器接收到观测到的轨迹信息To§ ,并产生一个潜在的运动轨迹Zkin§ ,它将观测到的位置信息编码。
视觉编码器接收观察到的帧Vo,并为每个人提取有条件的时空背景Zvis§ ,这捕获了预测未来轨迹所需的必要物理约束和社会互动。
为了提取时空背景 Zvis§ ,我们采用了一种三维双注意机制,该机制由
i)多个空间注意模块组成,该模块学习提取并关注视频的全局描述符,如人、人行横道、汽车和小巷;
Ii)描述符注意值,发现帧中每个像素的每个描述符的重要性。鉴于每个人用于在环境中移动的显著视觉信息不同于其他人,我们将双重注意机制置于人Zkin§的潜在运动轨迹上,以捕获特定于人的视觉编码。
解码器接收来自运动学和视觉编码器的编码信息,并将其解码为目标未来轨迹的分布Tf§ 。
与之前的工作不同,我们的框架中不同人的运动学编码器不交互。
相反,通过对观察到的视频整体进行操作,而不是单独处理每一帧,并根据每个人的观察轨迹调整视觉编码器,从而通过视觉流捕获交互。这允许我们的方法内在地捕获相关场景元素的运动学信息,并具有关注物理约束和可能很远的人的灵活性。
接下来,我们详细讨论我们的框架的每个组成部分,然后展示我们的学习和推理策略。为简便起见,我们将变量中的上标p去掉,因为它在上下文中很清楚。
3.3. Kinematic Encoder(运动学编码)**
(MLP将轨迹坐标转换为相对位置, 输入LSTM网络)
为了获得合适的轨迹表示,运动编码器Ek(·)接收目标人的观测轨迹作为输入,形式为
它由 起始位置坐标和 连续帧间人体的相对位移 组成。我们选择这种格式是因为它使模型能够更好地捕捉几乎相同的轨迹之间的相似性,而这些轨迹可能有不同的起点。
我们使用一个完全连通的网络Φ 来转换每个输入向量,并将其传递给**递归网络(LSTM)**来捕获观测轨迹不同坐标之间的依赖关系。
我们用 Zkin表示LSTM单元的输出序列,它捕获了潜在的运动学轨迹。
3.4. Conditional 3D Visual Encoder(条件3D视觉编码器
)**
如前所述,观察到的视频包含了关于场景中所有人的身体和社会约束的信息。
因此,我们使用**视觉编码器Ev(·)**来提取场景中每个人的定制视觉信息,我们用Zvis表示。
我们的编码器由三个连续的条件视觉特征提取和注意块{Bi}3 i=1组成,学习提取越来越复杂和高级的特征。
每个 Biis块由一个3D CNN层(Θi)和一个条件双注意网络(Ψi)组成。
每个3D CNN从视频中提取时空信息,条件双注意网络利用每个人的潜在运动轨迹信息Zkin,将视频中的相关时空区域聚焦给每个人。也就是说,视觉编码器的输入具有3维(2空间维+ 1时间维),因此,它通过3D cnn对视频进行处理,并对每个视频输入产生3D注意(2空间维+ 1时间维)。
(轨迹:1空间
视频:1空间+1时间)
Conditional Dual Attention Network.
设Fi表示3D CNN在第i个视觉特征提取块Bi的输出特征。我们采用[7]中提出的双注意结构,并对其进行了三层三维CNN的运动调节。
每个区块i中的条件双注意网络对Fi进行两步运算,得到其输出Fi’。第一步提取以人的运动信息为条件的全局视频描述符,表示为g(Fi|Zkin,u1)。
这些全局描述符将与场景元素相对应,如与目标人的轨迹相关的行人子集、地标、障碍。
另一方面,第二步是找出这些全局描述符与每一帧中的每个像素的相关性。
具体来说,每个块Bi中的条件双注意网络由三个三卷积层组成,{ρj}3 j=1,卷积核大小为1。第一层ρ1,对输入的Fi进行细化,并将其通道的数量扩展到m。第二层ρ2,学习了基于zkin的n个空间注意模块,从场景中构建了n个全局视觉 primitives,每个 primitives的大小为m。最后,ρ3对应于对每一帧每个像素的全局描述符的使用上的注意向量。我们可以这样写,
σ为softmax运算,g(Fi|Zkin,u1)为基于运动学信息的全局视频描述子。
我们用第二个ρ2a来表示g
式中为全连通层,表示ρ2生成的n个全局注意图的输出与每个全局注意图的Hadamard(入口方向)乘积。我们通过将最后一个块的输出Ft3传递给一个完全连接的层来构建条件视觉特征向量Zvis。
我们将在解码器模块中使用Zvis来预测目标人未来的轨迹。
3.5. Trajectory Decoder**
在对运动学和视觉信息进行编码后,我们将融合张量
◆输入maxpool层,然后是线性层,以从视觉和运动学流中获取信息供解码器使用。接下来,将结果作为隐藏向量提供给解码器模块中的LSTM。每个LSTM单元的输出代表一个未来的时间瞬间,t >to,然后连接到一个MLP,由两个完全连接的层组成,输出一个多元高斯分布的位移
这两个坐标的位置。假定是独立的。请注意,**预测位移而不是绝对位置,**允许我们的模型更好地解码具有不同起点的相同或相似轨迹。
我们的方法以随机模式输出轨迹。更具体地说,我们取样C序列δuto+1,…,δutf,以获得目标人未来可能采取的K个plausible 的轨迹。每个采样轨迹的预测坐标的不确定性来自于预测在特定时间步长的不确定性及其之前的时间步长的累积。这些不确定性使得该方法能够处理人类轨迹的多模态特性,通常存在多个似是而非的路径。
3.6. Training Strategy**
我们使用以下损失函数以端到端方式训练我们的网络,
其中Lmse表示均方误差,Lregis是一种正则化项,用于预测相对于观测到的轨迹的一致未来轨迹。
具体来说,正则化定义为预测轨迹的每一步Tf与与观测轨迹拟合的直线To之间的欧氏距离之和。
我们计算Lmseby首先抽样C未来轨迹,然后选择最接近地面真相的前N个轨迹,最后计算这些N轨迹和地面真相之间的均方误差的平均值(在实验中,我们设C = 20, N = 5)。我们从经验上观察到,这种策略使我们的网络收敛得更快,同时具有更准确的预测。
2. SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory Prediction 用于行人轨迹预测的稀疏图卷积网络
行人轨迹预测是自动驾驶中的一项关键技术,但由于行人之间复杂的相互作用,该技术仍具有很大的挑战性。
然而,以往基于密集无向交互的研究存在建模冗余交互和忽略轨迹运动趋势等问题,不可避免地与实际存在较大偏差。
针对这些问题,我们提出了一种用于行人轨迹预测的稀疏图卷积网络(SGCN)。
具体来说,
- SGCN明确地使用稀疏有向空间图对稀疏有向交互进行建模,以捕获自适应交互行人。
- 同时,我们使用一个稀疏的有向时间图来建模运动趋势,从而便于基于观测方向进行预测。
- 最后,将上述两种稀疏图融合在一起,估计了用于轨迹预测的双高斯分布的参数。
我们在ETH和UCY数据集上对我们提出的方法进行了评估,实验结果表明,我们的方法在平均位移误差(ADE)和最终位移误差(FDE)上分别比目前最先进的方法高出9%和13%。值得注意的是,可视化表明,我们的方法可以捕捉行人之间的自适应互动和他们的有效运动趋势。
1. Introduction
在已知行人轨迹的情况下,行人轨迹预测的目的是预测行人未来的位置坐标序列,在自动驾驶[3,29]、视频监控[28,45]、视觉识别[9,27,16]等应用中发挥着关键作用。尽管最近的文献取得了进展,但由于行人之间复杂的相互作用,行人轨迹预测仍然是一项非常具有挑战性的任务。例如,一个行人的运动很容易受到其他行人的干扰,亲密的朋友或同事可能会集体行走,不同的行人通常会进行相似的社会行为。
为了对行人之间的相互作用进行建模,在过去的几年里进行了大量的工作[31, 2, 11, 23, 19, 32, 46] ,其中按距离加权方法[31, 2, 11, 32]和基于注意力的方法[23, 19, 46, 8, 17, 18]在行人轨迹预测方面取得了最先进的结果。
大多数基于距离加权和注意力的方法采用密集交互模型来表示行人之间的复杂交互,其中假设行人与所有其他行人交互。(问题1)
此外,距离加权法采用相对距离来建模无向交互,其中两个行人的交互是相同的。然而,我们认为密集的交互和无定向的交互都会导致行人之间的多余交互。(问题2)
如图1所示:(1)两对行人从相反的方向前进,只有红色行人的轨迹绕行,避免与绿色行人相撞;
(2)蓝色和黄色行人的轨迹不相互影响。很明显,基于密集或稀疏无向交互的方法将无法处理这种情况下的交互。
例如,如A.1所示,密集的无向交互会在黄色和蓝色的行人之间产生多余的交互,因为黄色和蓝色的行人的轨迹不会相互影响。此外,稀疏的无向交互,
如A.2所示,由于红色行人绕道以避免与绿色行人碰撞,而绿色行人则直接向前走,导致绿色行人与红色行人之间产生了多余的交互。
为了解决上述问题(多余的交互),最好设计一种稀疏有向交互(Sparse Directed Interaction),
如a .3所示,它可以在行人轨迹预测中与自适应行人交互。
此外,由于以往的工作侧重于避碰,导致预测的轨迹往往会生成绿色和红色的行人避碰的绕行轨迹,
如B.1所示,而绿色的行人偏离了地面真实。在这种情况下,我们提出运动趋势,
该运动趋势由B.2中蓝色虚线圈所包围的短期轨迹表示,绿色行人的轨迹方向为直线前进,红色行人的轨迹方向偏转以避免与绿色行人的碰撞。基于轨迹方向不会突然变化的假设,运动趋势有利于绿色行人的预测。需要注意的是,运动趋势是万能的,
如B.3所示,最后一种运动的表现要比其他的好,因为它可以共同捕捉“笔直向前”和“暂时偏离”的趋势。一旦找到有效的中间点集合,运动趋势将有助于行人轨迹预测。
在本文中,我们提出了一种新的稀疏图卷积网络(SGCN),它将稀疏有向交互和运动趋势相结合,用于行人轨迹预测。
如图1 (A+B)所示,稀疏有向交互发现有效影响特定行人轨迹的行人集合,运动趋势改善交互行人的未来轨迹。
其中,如图2所示,我们联合学习了稀疏有向空间图和稀疏有向时间图,对稀疏有向交互和轨迹运动趋势进行建模。
如图3所示,稀疏图学习利用自注意[40]机制来学习轨迹点之间的非对称密集和定向交互得分。
然后,将这些交互得分融合并反馈到非对称卷积网络中,获得高层交互特征。
最后,利用常数阈值和“Zero-Softmax”函数的归一化步骤对冗余交互进行修剪,得到一个稀疏有向空间和稀疏有向时间邻接矩阵。
最后得到的非对称归一化稀疏有向邻接矩阵可以表示稀疏有向图。一旦得到上述两个图,我们进一步学习由图卷积网络[22]级联的轨迹表示,并使用时间卷积网络[4]估计双高斯分布的参数,用于生成预测的轨迹。
在 eth [34]和 ucy [24]数据集上的大量实验结果表明,我们的方法优于所有最先进的比较方法。
据我们所知,这是第一个明确建立相互作用和运动倾向模型的工作。
总之,我们的贡献是三方面的:
(1)我们提出了 解析有向交互和运动的方法来改进预测的轨迹;
(2)我们设计了一种自适应的方法来模拟稀疏有向交互和运动趋势;
(3)我们提出了一个稀疏图卷积网络来学习轨迹表示,并通过实验验证了显式稀疏性的优点。
2. Related Works
Pedestrian Trajectory Prediction.
Graph Convolution Networks.
现有的 gcn 模型可以分为两类: 1)频谱域 gcns [22,7]设计基于图傅里叶变换的卷积运算。它要求邻接矩阵是对称的,由于 Laplacian Matrix 的特征分解; 2)空间域的 gcns 直接在边上进行卷积,这适用于非对称的邻接矩阵。例如,graphsage [12]以三种不同的方式聚合节点,并以不同的顺序融合相邻节点以提取节点特征。Ga t [41]使用注意力机制模拟节点之间的相互作用。为了处理时空数据,stgcn [43]将空间 gcn 扩展到时空 gcn,用于基于骨架的动作识别,从局部时空域聚集节点。我们的 sgcn 不同于以上所有的 gcn,因为它基于一个学习的稀疏邻接矩阵聚合节点,这意味着要聚合的节点集是动态确定的。
Self-Attention Mechanism.
在我们的方法中,我们只计算单层的注意力分数到模型稀疏定向的相互作用和运动趋势。与最近的工作[46]相比,我们的方法是参数效率高并且性能更好。
3. Our Method
包括稀疏图学习和基于轨迹表示的双高斯分布参数估计。
该网络的总体架构如图2所示。
首先,分别利用自注意机制和非对称卷积网络从空间图和时间图输入中学习稀疏有向交互(sdi)和运动趋势(mt)。然后利用稀疏时空图卷积网络从表示稀疏有向空间图(sdi)和稀疏有向时间图(mt)的非对称邻接矩阵中提取交互和趋势特征。最后,将学习轨迹表示输入时间卷积网络(tcn) ,预测双高斯分布的参数,生成预测轨迹。
3.1. Sparse Graph Learning稀疏图学习
Graph Inputs.
根据轨迹建两个图,一个稀疏有向空间图,一个轨迹的稀疏轨迹图
分别连接(表示为1)或不连接(表示为0)。
由于节点之间的连接没有先验知识,
un 中的元素被初始化为1,
ut 由于时间依赖性被初始化为由1填充的上三角矩阵,即当前状态与未来状态无关。
Sparse Directed Spatial Graph.(稀疏有向空间图)
为了增加空间图输入的稀疏性,即在空间图中准确识别出参与交互的行人集合,我们首先采用自注意机制[40]计算非对称注意评分矩阵,
即密集空间交互 行人Rspa∈RN×Nbetween,如下所示:
由于Rspa是在每个时间步独立计算的,因此它不包含任何轨迹的时间依赖信息。因此,我们将每个时间步长的密集相互作用Rspa叠加为Rs-tspa∈RTobs×N×N,然后将这些密集相互作用沿时间通道进行1 × 1卷积融合,得到时空密集相互作用ˆRs-t spa∈RTobs×N×N。
一片ˆRs-t spa在每个时间步是一个不对称方阵,其(i, j) th元素表示节点i对节点j的影响。然后,主动和被动的关系用矩阵的行和列分别表示可以组合获得高层互动功能。
具体来说,在ˆRs-t spa的行和列上分别应用非对称卷积核[39]级联,即:
我们继续通过σ (Fspa)上的元素阈值生成稀疏相互作用掩模Mspa,且超参数ξ∈[0,1]。当Fspa[i, j]≥ξ时,Mspa的(i, j)-第1项设为1,否则为0,即
其中I{·}是指示函数,如果对应的不等式成立,则输出1,否则输出0。σ为s型活化函数。为了保证节点是自连接的,我们在交互掩码中添加一个单位矩阵I,然后将其与时空密集交互ˆRst spaby元素-wise乘法融合,得到一个稀疏邻接矩阵Aspa,即:
以前的一些工作(如[22])表明,邻接矩阵的标准化是GCN正常运行的必要条件。**而顶点域的相关工作直接采用Softmax函数对邻接矩阵进行归一化,**其副作用是,由于Softmax对零输入输出非零值,稀疏矩阵又会变回密集矩阵。在这种情况下,没有互动的行人*再次互动。为了避免这个问题,我们设计了一个“Zero-Softmax”函数来保持稀疏性,消融研究的实验结果表明“Zero-Softmax”可以进一步提高性能。具体来说,给定一个平坦矩阵x = [x1,x2,…,xD],
其中ǫ是一个可以忽略的小常数,以确保数值稳定性,D是输入向量的维数。在此基础上,得到归一化稀疏邻接矩阵ˆAspa= Zero-Softmax(Aspa)。由此,最终从空间图输入中得到一个表示稀疏有向交互的时空稀疏有向图ˆGspa= (Vt,ˆAspa)。整个过程如图3所示。
Sparse Directed Temporal Graph
按照与稀疏有向空间图相似的方法,我们也可以从时间图输入中获得有效的运动趋势,即归一化邻接矩阵ˆatmp,但有两点不同。
- 首先,在Etmp中加入一个位置编码张量E[40],即Etmp= φ(Gtmp,Wtmp E) + E,因为不同顺序的轨迹点表示不同的运动趋势。值得注意的是,由于时间依赖关系,密集时间交互Rtmp也是像utm一样的上三角矩阵
- 第二个区别在于如图3所示的时间-空间融合步骤,我们不能对叠加Rtmp∈RTobs×Tobs得到的Rt-s tmp∈RN×Tobs×Tobs进行卷积,因为不同场景的行人数量N是可变的。为了简化操作,我们直接将Rt-s tmpas看作是时间-空间的密集相互作用。
由此,我们最终从时间图输入中得到一个表示运动趋势的时空稀疏有向图ˆGtmp= (Vn,ˆAtmp)。
3.2. Trajectory Representation and Prediction
GCNs能够聚合表示ˆAspa(SDI)和ˆAtmp(MT)的稀疏图的节点,并学习其轨迹表示。如图2所示,我们使用两个GCNs来学习轨迹表示,其中一个分支ˆAspa在ˆAtmp之前馈送到网络,而在另一个分支中,它们以相反的顺序馈送。因此,第一个分支产生交互-趋势特征HITF,而另一个分支产生趋势-交互特征htf,即
Trajectory Prediction and Loss Function
我们遵循Social-LSTM[1]认为轨迹坐标(xt n,yt n)在时间t的行人n步遵循bi-variate高斯分布n(ˆμt n,ˆσt n,ˆρt n),ˆμt n是均值,标准差σt nis,ˆt nis相关系数ρ。给定最终轨迹表示H,我们可以预测TCN[4]在时间维度上遵循SocialSTGCNN[32]的双高斯分布参数。值得注意的是,选择TCN是因为它不像传统rnn那样存在梯度消失和计算成本高[14,20,6]。因此,该方法可以通过将负对数似然损失最小化为来进行训练
4. Experiments and Analysis
**Evaluation Datasets.**为了验证我们提出的方法的有效性,我们使用了两个公共的行人轨迹数据集,即ETH[34]和UCY[24],这两个数据集是轨迹预测任务中使用最广泛的基准。其中ETH数据集包含ETH和HOTEL场景,而UCY数据集包含UNIV、ZARA1、ZARA2三个不同场景。我们采用[38]方法进行培训和评估。我们遵循现有的工作,观察8帧(3.2秒)的轨迹,并预测接下来的12帧(4.8秒)。
**Evaluation Metrics.**我们采用平均位移误差(ADE)[36]和最终位移误差(FDE)[1]两个指标来评价预测结果。ADE测量方法得到的所有预测轨迹点与所有地真未来轨迹点之间的平均L-2距离,而FDE测量方法得到的最终预测目的地与地真未来轨迹点最终目的地之间的L-2距离。
Experimental Settings.
在我们的实验中,自注意的嵌入维数和图嵌入维数均设置为64。
自注意层数为1。
非对称卷积网络由7个卷积层组成,其核大小为S = 3。
时空GCN和时空GCN级联1层。
TCN级联4层。
阈值ξ根据经验设置为0.5。
采用PRelu[13]作为非线性激活δ(·)。
采用Adam[21]优化器对该方法进行了150个纪元的训练,数据批大小为128。
初始学习率设置为0.001,其衰减系数为0.1,间隔为50个epoch。
在推断阶段,从学习到的双变量高斯分布中抽取20个样本,并使用最接近地面真实的样本来计算ADE和FDE度量。
我们的方法在PyTorch[33]上实现。该准则已被公布。
4.1. Comparison with State-of-the-Arts
我们将我们的方法与过去四年中最先进的9种方法进行了比较,包括Vanilla LSTM[1]、Social-LSTM[1]、SGAN[11]、Sophie[37]、PITF[26]、Social-BiGA T[23]、Social-STGCNN[32]、RSGB[38]和STAR[47]。
结果如表1所示,使用ADE和FDE度量进行了评估。
结果表明,该方法在ETH和UCY数据集上都显著优于其他方法。尤其是ADE度量,在ETH和UCY数据集上,我们的方法比之前最好的方法STAR[47]平均高出9%。对于FDE度量,我们的方法优于之前最好的方法Social-STGCNN [32] b,在ETH和UCY数据集上平均有13%的边际值。
据我们所知,潜在的原因是,我们的方法可以通过利用稀疏有向交互去除多余交互的干扰,并利用运动趋势来改进预测。
有趣的是,在以密集人群场景为主的UNIV序列上,我们的方法优于所有基于密集交互的方法,如SGAN[11]、Sophie[37]、GA T[23]、Social-BiGA T[23]、Social-STGCNN[32]和STAR[47]。
我们推测基于密集交互的方法可能会捕获多余的交互对象,从而导致预测误差。不同的是,我们的方法能够通过稀疏有向交互去除多余的交互,这有利于获得更好的性能。
Sparse Directed Interaction Visualization. 稀疏定向交互可视化
图5可视化了稀疏定向交互,从中我们发现我们的方法能够在不同的交互场景中捕捉有效的交互对象。图(a2)、(b1)、(c1)和(c2)说明了一个节点只受其他节点的部分影响的稀疏有向交互。例如图(a2)表示蓝色节点与红色节点之间的稀疏有向交互,符合A场景,根据ground-truth,蓝色节点的轨迹只受红色节点的影响。此外,我们发现除了图(a2)、(b1)、(c1)和(c2)给出的稀疏有向交互外,我们的方法可以动态捕获交互对象。图(a1)和(b2)显示了绿色节点与所有标记节点的交互。
4.2. Ablation Study
首先,我们在ETH和UCY数据集上进行了消融实验,以分离每个组件对最终性能的贡献。其次,我们设置了不同的阈值ξ值,以评估不同稀疏度下所提出的稀疏图的有效性。下面将介绍详细的实验。
Contribution of Each Component各组分的贡献
如表2所示,我们评估了我们的方法的三个不同变体,其中:(1)SGCN w/o MT表示我们的方法中删除了运动趋势,其中它仅仅建模稀疏有向交互作用;(2) SGCN w/o ZS表示用Softmax代替Zero-Softmax进行稀疏邻接矩阵归一化;(3) SGCN w/o SDI表示在我们的方法中删除了稀疏有向交互作用,仅建模运动趋势。从结果中,我们可以看到,从模型中删除任何组件都会导致性能大幅下降。特别地,SGCN不带MT的结果显示ADE的性能下降67%,FDE的性能下降83%,这明显验证了运动趋势对行人轨迹预测最终性能的贡献。此外,SGCN w/o SDI在ADE中性能下降78%,在FDE中性能下降96%,表明稀疏定向交互对行人轨迹预测也很重要。
Effectiveness of Sparse Graph.稀疏图的有效性
如表3所示,我们评估了我们方法的五个不同变体,其中:(1)SGCN-V1:设置ξ = 1表示每对行人之间没有相互作用;(2) SGCN-V2:当ξ = 0.75时,导致非常稀疏的有向相互作用;(3) SGCN-V3:当ξ = 0.25时,出现相对密集的定向相互作用;(4) SGCN-V4:设置ξ = 0,导致相互作用密集;和(5)SGCN:当ξ = 0.5时,它响应我们的全方法。实验结果见表3。我们发现当ξ = 0.5时,该方法的整体性能达到一个峰值,这意味着在一定程度上增强稀疏性是足够有效的。sgcn - v1的性能最低,说明行人之间建模交互的必要性。此外,sgcn - v2和sgcn - v3结果优于SGCN-V4,说明稀疏交互确实可以提高性能。
4.3. Visualization
Trajectory Prediction Visualization.
我们在图4中可视化了几个常见的交互场景,每个轨迹末端的实心点表示开始。更多的场景可视化将在补充材料中呈现。我们将我们的方法与Social-STGCNN[32]和SGAN[11]进行比较,因为它们都学习了未来轨迹的参数化分布。
具体来说,场景1和场景2描述了两个行人分别在相同或相反的方向平行行走。在这些情况下,行人不太可能发生碰撞。可视化显示,我们预测的分布沿地面真相有更好的趋势,而SocialGCNN和SGAN产生更大的重叠,这意味着潜在的碰撞,从而偏离地面真相。场景3和4显示两个行人走向另一个静止的行人,一个行人和另一个行人分别以垂直的方向相遇。Social-STGCNN和SGAN同样存在重叠问题,碰撞的可能性很大,而我们预测的分布重叠较少。特别地,绿色行人在场景3中静止不动,因此我们的预测分布方差较小,表明我们的方法捕获了场景3中静止行人不受其他行人影响的事实。场景5和场景6代表了不止一个行人的相遇,其中我们的结果与ground-truth相当吻合,而Social-STGCNN和SGAN的结果有严重的重叠和偏离ground-truth。
综上所述,Social-STGCNN和SGAN都预测了重叠分布,偏离了ground-truth,而我们预测的分布重叠较少,沿着ground-truth有更好的趋势。对于重叠部分,可能是由于Social-STGCNN和SGAN模型中存在密集的相互作用,不可避免地会引入多余的相互作用,干扰正常轨迹,产生较大的绕道以避免碰撞。相比之下,SGCN将稀疏的定向相互作用和运动趋势结合起来进行建模,从而得到更好的预测分布。
Sparse Directed Interaction Visualization稀疏有向交互可视化
图5可视化了稀疏定向交互,从中我们发现我们的方法能够在不同的交互场景中捕捉有效的交互对象。
图(a2)、(b1)、(c1)和(c2)说明了一个节点只受其他节点的部分影响的稀疏有向交互。
例如图(a2)表示蓝色节点与红色节点之间的稀疏有向交互,符合A场景,根据ground-truth,蓝色节点的轨迹只受红色节点的影响。
此外,我们发现除了图(a2)、(b1)、(c1)和(c2)给出的稀疏有向交互外,我们的方法可以动态捕获交互对象。图(a1)和(b2)显示了绿色节点与所有标记节点的交互。
5. Conclusion
在本文中,我们提出了一个用于轨迹预测的稀疏图卷积网络,它利用了稀疏有向交互和运动趋势。通过大量的实验评价,我们的方法比以往的方法取得了更好的性能。此外,我们的方法可以更准确地预测轨迹,甚至在一些复杂的场景下,如一组行人平行行走。这些改进可以归因于我们方法识别稀疏定向交互和运动趋势的能力。
3.Interpretable Social Anchors for Human Trajectory Forecasting in Crowds
摘要:
人群中的人类轨迹预测,其核心是一个序列预测问题,具有捕获序列间依赖性(社会互动)并因此预测社会兼容的多模态分布的特定挑战。
近年来,基于神经网络的方法已被证明在基于距离的度量上优于手工方法。然而,这些数据驱动的方法仍然受到一个关键的限制:缺乏可解释性。
为了克服这一限制,我们利用离散选择模型的力量来学习基于规则的可解释意图,然后利用神经网络的可表达性来建模特定场景的残差。
在以交互为中心的基准测试TrajNet++上进行了大量实验,证明了我们提出的体系结构的有效性,可以在不影响准确性的情况下解释其预测。
1.Introduction
历史为手工设定标准的方法
基于递归神经网络模型在学习复杂函数和长期依赖关系方面的成功,Alahi等人[4]提出了第一个基于神经网络(NN)的轨迹预测模型Social LSTM,该模型在基于距离的度量上优于手工方法。由于Social LSTM的成功,神经网络已经成为设计人体轨迹模型的事实上的选择[21,64,66,28,19]。然而,目前基于神经网络的轨迹预测模型存在一个明显的局限性:模型的决策过程缺乏可解释性。
在这项工作中,我们感兴趣的是结合人类轨迹预测的两种范式的力量(见图1):手工模型预测的轨迹的可解释性,特别是离散选择模型[7,50],以及基于神经网络的预测的高准确性。
有了这个目标,我们提出了一个模型,在一个离散的可能的未来意图集上输出一个概率分布。这一套是设计作为一个功能的行人的速度和方向的运动。由于具有输出可解释决策的能力,我们的模型在选择模型架构的帮助下学习了这些意图的概率分布。为此,我们在DCM[55]中采用了一种新的混合和可解释框架,其中基于知识的手工功能可以用神经网络表示来增强,而不影响可解释性。
我们的架构用神经网络生成的场景特定残差项来增强每个预测的高级意图。
这样做的好处有两方面:
首先,残差允许将模型的输出空间从离散分布扩展到连续分布。
其次,它有助于整合复杂的社会互动以及一阶手工模型未能捕捉到的长期依赖,从而提高预测的准确性。
总的来说,我们可以把我们的结构看作是分解高层次的粗糙意图和低层次的特定场景的人类运动的细微差别。
我们在TrajNet++[32]上演示了我们提出的架构的有效性,TrajNet++[32]是一个以交互为中心的人类轨迹预测基准,由经历各种社会现象的采样良好的真实世界轨迹组成。通过广泛的实验,我们证明了我们的方法在真实世界和合成数据集上的表现与竞争基线相当,同时提供了高层决策背后的基本原理,这是自动化系统等安全关键应用的必要组成部分。
2. Related Work
2.1. Social Interactions
社会交互
2.2. Multimodality
多模态
在这项工作中,我们将多模态问题重新定义为在代理的意图上学习一个分布。我们利用选择模型的可解释性来预测这些高级意图的分布。因此,与之前的工作不同,我们的模型明确地为每个未来模式提供了一个基本原理和排名。
3. Method
通过预测周围行人的动作,人类已经掌握了处理复杂社会互动的能力,从而产生了诸如避免碰撞和领导者-追随者等社会概念。
目前基于nn的体系结构,尽管显示了很高的准确性,却无法提供其准确预测背后的基本原理。
我们的目标是让这些模型能够提供一个基于社会概念的理由来支持它们的决定。
在本节中,我们将描述我们所提议的体系结构,它输出一个高级意图和对应于每个意图的特定场景的残余,然后是我们的基于dcm的组件,该组件使意图可解释。
3.1. Problem Definition
3.2. Discrete Choice Models
离散选择模型
离散选择模型理论(DCM)建立在一个强大的数学框架上,对于决策过程[43]具有很高的可解释性。DCM经常被应用于经济、健康和交通领域,在这些领域中,对捕捉人类行为的参数的解释是至关重要的。
这些模型被用来预测,对于每个人i,他们在一组可用的K个选项中的选择。
在最常见的基于dcm的方法,称为随机效用最大化(RUM),[41],每个选项都有一个相关的手工设计的函数uk,称为效用,并且每个人都被假设选择他们效用最大化的选项。
这些效用函数的输入(x)是根据给定问题的专家知识设计的,然后被分配一个由可学习权值β组成的向量。这些权重被回归到所有关于观察的可用选项上,并反映效用函数中每个组件的影响。正是对这些权重和相应的输入值的研究,使得离散选择方法在个体和群体水平上具有较高的可解释性。形式上,选项k的效用计算如下:
虽然许多研究将数据驱动方法纳入DCM框架[10,26,60],但直到最近才提出在加入神经网络后保持基于知识的函数和参数可解释的模型[55,23]。在本文中,我们使用学习多项式Logit (L-MNL)[55]作为我们的基本DCM模型。