摘要
人员搜索旨在共同解决人员检测和人员再识别(re-ID)问题。现有的工作已经设计了基于Faster R-CNN的端到端网络。但是,由于Faster R-CNN的并行结构,所提取的特征来自于区域提议网络产生的低质量提议,而不是检测到的高质量包围盒。人员搜索是一项细粒度的任务,这些较差的特性将显著降低重新识别的性能。为了解决这个问题,我们提出了一个序列端到端网络(SeqNet)来提取优越的特征。在SeqNet中,检测和重新标识被认为是一个渐进的过程,通过两个子网络顺序进行处理。此外,我们设计了一种鲁棒的上下文二部图匹配(CBGM)算法,以有效地利用上下文信息作为重要的补充线索进行人物匹配。在中大-中山大学和PRW这两个被广泛使用的搜索基准上进行的大量实验表明,我们的方法取得了最先进的结果。此外,我们的模型在单个GPU上的运行速度为11.5 fps,可以很容易地集成到现有的端到端框架中
介绍
行人检测(Girshick等人,2014;Girshick 2015;Ren et al. 2015)的目标是检测图像中所有人的包围盒(BBoxes)。人员再识别(re-ID) (Yang et al. 2017;Wang et al. 2019;Fu等人2019;Hao等人2019年;Zhao et al. 2020)用于将感兴趣的人与手工裁剪的人图像进行匹配。虽然这两个领域近年来得到了广泛的研究,但由于其功能有限,不能直接应用于实际应用中。为了弥补这一差距,Xu等人引入了以在场景图像中定位目标人物为目标的人搜索任务(Xu等人,2014)。Per- son搜索可以看作是行人检测和人员重新识别的结合。它在视频监控、寻找走失儿童、自助超市等方面具有广泛的应用前景。
如图1所示,现有作品将任务划分为生成图像中所有人的BBoxes和person re-ID。他们要么用两个独立的模型(两阶段方法)单独处理问题,要么用一个多任务模型(端到端方法)联合处理问题。
对于端到端方法(Xiao et al. 2017, 2019;Munjal et al. 2019),他们设计了一个基于Faster R-CNN的多任务框架(Ren et al. 2015)。建立区域提议网络(RPN)来生成区域提议,然后将区域提议反馈给随后的并行检测和重新标识分支。然而,网络提取的这些特征来自于低质量的提议,而不是检测到准确的bbox。虽然这些较差的特性对粗粒度的分类任务影响不大,但会显著降低细粒度的重ID任务的性能。这个问题是由Faster R-CNN的并行结构引起的。由于检测和重新标识是同时进行的,所以在提取重新标识特征之前无法获得准确的bbox。对于两阶段方法,就不存在这样的问题,因为检测和重新识别是用两个独立的模型顺序处理的。然而,它们是耗时和资源消耗的