Deep Learning for Visual Tracking: AComprehensive Survey基于深度学习的视觉跟踪

论文地址:https://arxiv.org/pdf/1912.00535.pdf

摘要

研究当前基于深度学习的可视化跟踪方法、基准数据集和评价指标。从9个关键方面总结了基于深度学习方法的基本特征、主要动机和贡献:网络架构、网络开发、视觉跟踪的网络训练、网络目标、网络输出、相关滤波器开发、鸟瞰跟踪、长期跟踪、在线跟踪。

引言

视觉跟踪:由目标初始状态估计未知的视觉目标的轨迹。

应用

自动驾驶汽车[1],自主机器人[2],监控[3],增强现实[4],鸟瞰跟踪[5],运动[6],外科[7],生物学[8],海洋探索[9],等等。

视觉跟踪的挑战

其中可能包括任意类别的目标(如人、无人机、动物、车辆)和运动模型,各种成像特性(如静态/移动摄像机、平滑/快速移动,相机分辨率),以及环境条件的变化(例如,照明变化,背景杂乱,拥挤的场景)。

传统方法

传统方法采用各种视觉跟踪框架,如判别相关滤波器(DCF)[10] -[16],剪影跟踪[17],核跟踪[18],点跟踪[19]-用于目标的外观和运动建模。一般来说,传统的跟踪器对现实场景中的目标结构及其运动有不灵活的假设。这些跟踪器利用手工制作的特征(例如,定向梯度直方图(HOG)[20]和颜色名称(CN)[21]),所以它们不能解释语义目标信息和处理显著的外观变化。然而,一些基于检测的跟踪方法(例如,基于dcf的跟踪器)提高跟踪性能和高效计算[22]-[24]。例如,考虑到有限的机载计算能力和嵌入式硬件,鸟瞰跟踪器[25]-[27]广泛使用这些基于cpu的算法。

发展历程

Deep Learning for Visual Tracking: AComprehensive Survey基于深度学习的视觉跟踪

 虽然卷积神经网络(CNNs)最初是占主导地位的网络,但目前正在研究一系列广泛的架构,如循环神经网络(RNNs)、自动编码器(AEs)、生成对抗网络(GANs),特别是孪生神经网络(SNNs)和自定义神经网络。最先进的基于DL的可视化跟踪器具有鲜明的特点,如利用各种架构、骨干网络、学习过程、训练数据集、网络目标、网络输出、利用深度特性的类型、CPU/GPU实现、编程语言和框架、速度等。

视觉目标跟踪器大致可分为计算机视觉中DL革命前后两大类。第一类主要是[41]-[44],其中包括基于经典外观和运动模型的传统跟踪器。这些跟踪器采用人工设计的目标建模功能,以减轻外观变化,并提供高效的计算复杂性。例如,由于使用高级gpu的限制,虽然这些跟踪器适合在飞行机器[25]-[27],[45],[46]上实现,但它们没有足够的鲁棒性来处理野外视频的挑战。通常,这些跟踪器试图集成多个特征,以构建一个互补的视觉提示集。但是,要对一个最优的权衡进行优化,同时又能在现实世界中保持效率,这是很棘手的。鉴于近年来基于dl的跟踪方法取得的显著进展,上述著作所评述的方法已经过时。

第二类包括基于dl的跟踪器,它们要么使用现成的深层特性,要么使用端到端网络。一种简单的方法是将预先训练的深度特性集成到传统框架中。然而,在考虑任务差异的情况下,这种跟踪器会导致不一致问题。但是,端到端的训练视觉跟踪器已经调查了现有的跟踪挑战。最近,[47]-[49]审查了有限的基于dl的可视化跟踪器。例如,[47],[48]将一些手工制作的深度方法分为相关过滤跟踪器和非相关过滤跟踪器。其次,基于架构和跟踪机制的进一步分类已经被应用。[50]的工作特别调查了一些基于SNN的跟踪器,基于它们的网络分支、层次和培训方面。然而,它不包括最先进的跟踪器和自定义网络。最后,工作[49]根据结构、功能和训练对基于dl的跟踪器进行分类。然后,根据观察结果进行评估,得出分类结论。从结构的角度,将跟踪器分为CNN、RNN等,根据其在视觉跟踪中的功能,将其分为特征提取网络(FEN)和端到端网络(EEN)。een还根据输出进行分类,包括对象得分、置信图和边界框(BB)。最后,从网络培训的角度将DL-based方法分为预训练和在线学习两大类。

上一篇:无网络连接情况下,处理WebView方案


下一篇:Joint Learning Architecture for Multiple Object Tracking and Trajectory Forecasting