Task-conditioned Domain Adaptation for Pedestrian Detection in Thermal Imagery ECCV 2020
引用量:41 机构:
code:https://github.com/mrkieumy/task-conditioned
youtube:ECCV paper, Task-conditioned Domain Adaptation for Pedestrian Detection in Thermal Imagery, Kieu My
贡献:
1>引入日夜划分的思想,通过辅助分类来提高检测网络性能
2>提出了两种将调节层插入检测网络的策略
3>大量的ablative analyses
Views:
本文说到底主要是提出了一个小挂件(结构也十分简单),尽管有着很好的效果,但是能被ECCV收录,一部分原因主要在于红外行人检测领域的稀缺。
辅助分类最后的输出是怎么帮助网络学习的,文章没提到
Abstract:行人检测是计算机视觉的核心问题,要求有着较高的可靠性,具有很大的挑战和技术难度,尤其在夜晚和恶劣天气下,
这也是近年来热图像和多光谱方法变得流行的原因之一。在本文中,我们提出了一种新的域自适应方法,该方法可以显着提高热域中的行人检测性能。关键思想是采用RGB训练的检测网络来同时解决两个相关任务。在域自适应过程中,将区分白天和夜间热图像的辅助分类任务添加到主要检测任务中。学会执行该分类任务的内部表示用于在多个点对YOLOv3检测器进行调节,以改善其对热域的适应性。通过与KAIST多光谱行人检测基准测试中的最新技术进行比较,我们验证了任务条件域自适应的有效性。据我们所知,我们提出的任务条件方法可以实现最佳的单模式检测结果。
1 Introducton
行人检测是CV中的重要问题之一,在各种实际应用中(eg:安全和保障、监视、自动驾驶)发挥着重要作用。在许多常见情况下,如:有限的光照、恶劣天气(雾、雨、灰尘),检测具有挑战性,基于可见光的大多数检测器可能会失效。
由于这些原因,已提出利用thermal image的健全可靠的行人检测方法,越来越多的作品还研究了将可见光图像和热图像结合进行可靠的行人检测。
但是,两种模式需要昂贵的注释和更复杂的网络体系,部署时需要校准多个传感器,适用性差。除了技术和经济的原因,热图像所拥有的保护隐私的特性也是促使人们首选热图像检测(红外图分辨率低,保护隐私)。仅用热图像关注行人检测,该任务很有意义且有着很大的提升空间。我们的关键思想是用解决了一个【简单分类任务的辅助网络增强】检测器,然后利用该辅助网络的学习表示将条件参数注入到【策略性选择的主检测网络的】卷积层中。与其他单模态方法相比,所生成的自适应网络完全在热域中运行,并具有出色的性能。
本文的贡献:
- 提出了一种基于YOLOv3的新颖的任务条件网络架构,该架构使用日/夜分类的辅助任务来帮助适应热域。
- 我们进行了广泛的ablative analyses 以探索各种任务调节架构和适应计划的有效性。
- 据我们所知,我们的任务条件检测网络的性能优于KAIST多光谱行人检测基准[17]的所有单模态检测方法。
- 仅利用热成像技术,我们在夜间的表现就超过了KAIST基准上的许多最新的多光谱行人探测器。
文章结构安排,回顾与我们提出领域适应方法的有关文献,第3节中描述了根据日夜区分辅助任务来调节热域自适应的方法,
第4节中报告了为评估任务而进行的广泛实验,第5节,讨论了我们的贡献。
2.Related Work 这一节写得太棒了,不愧是顶会
得益于热成像仪成本降低和实用性提高,许多工作已经研究如何在多光谱和热域中执行它。
2.1 Pedestrian detection in the visible spectrum
主要挑战来自遮挡、光照改变、视点和背景的变化。
在[39]中通过语义分割任务如行人和场景的属性检测共同优化,在[29]中,使用 mutual visibility deep model 对多个行人的能见度和重叠行人的识别度进行了联合估计,在[5]中,语义分割作为额外的监督,以改善检测。在[40]中,使用Region Proposal Networ(RPN)作为独立任务的行人检测,[24]中,使用基于Fast R-CNN的多尺度检测,最近在[27]提出了一种没有anchor的对行人中心和规模的预测方法。
2.2 Multispectral pedestrian detection approaches
最近许多工作使用RGB+thermal来改善检测结果[38\25\20\39\22\23],结合进行训练和测试,[38]作者研究了两种类型的融合网络以充分利用可见光和热图像。在[25]中介绍了用于人脸识别的多光谱人脸检测(early、halfway、late and score fusion),[39]中跨模态学习框架包括 Region Reconstruction Network(RRN)和 Multi-Scale Detection Network (MDN)来改善可见光数据中的检测结果。
由于可见光图像和热图像组合在两阶段网络体系结构中效果很好,因此大多数高性能的多光谱行人检测最初都基于Fast/Faster R-CNN。例如,Faster R-CNN检测器用于在感知照明的Faster R-CNN(IAF R-CNN)中执行多光谱行人检测。[20]中的作者通过完全卷积RPN和增强决策树分类器(BDT)的组合在多光谱视频中检测到人。在[10]中还研究了RPN的泛化能力,评估了哪个多光谱数据集可实现更好的泛化。MSDS-RCNN [22]是多光谱提议网络(MPN)和多光谱分类网络(MCN)的融合。在[41]中,提出了一个对齐区域的CNN来处理弱对齐的多光谱数据。在[6]中提出了通过有监督的学习框架进行框级分割,从而消除了对锚框的需求。
One-Stage检测器方法。[37]中的作者使用YOLOV2作为用于多光谱检测的快速单通道网络结构。[21]中的作者利用deconvolutional single-shot multi-box detector (DSSD)探索 visible 和 thermal 的特征。[43]中的工作采用了两个单镜头检测器(SSD)来研究使用门控融合单元(GFU)融合颜色和热特征的潜力。
2.3 Pedestrian detection in thermal imagery
一些作品只用thermal imagery检测行人。在[18]中提出了用于红外图像分割的自适应模糊C-means和CNN用于检测行人。在[3]中提出将方向梯度的热位置强度直方图(WTPIHOG)和自适应核SVM(AKSVM)用于夜间热图像检测。在[12]中,带有显着性图的增强热图作为注意力机制已被用于训练Faster R-CNN检测器。在[16]中,执行了几个视频预处理步骤,以使热图像看起来更类似于从RGB转换的灰度图像,然后使用经过pre-trained and fine-tuned的SSD detector。最近,[7]中的作者使用Cycle-GAN将热数据转换为伪RGB数据,将其微调到多模式Faster-RCNN检测器。相反,[15]中的作者使用GAN将可见图像转换为合成热图像,作为数据增强处理来训练行人检测器处理纯热图像。另一项涉及领域自适应的最新工作是在[19]中提出的自上而下和自下而上的领域自适应方法,用于热成像中的行人检测。在这项工作中,自下而上的适应在夜间在KAIST数据集上获得了最新的单模态结果[17]。
2.4 Task-conditioned networks
有一些task-conditioned方法,如基于adversarial networks的条件生成模型和开创性工作,提出了用于训练深度卷积GANs的指南。尤其,我们受到[30]中提出的 general conditioning layer( Feature-wise Linear Modulation(FiLM))启发,FiLM用于调节视觉推理任务。
本文仅对热图像进行行人检测,基于single-stage detector YOLOv3,其计算效率很高。通过集成条件层来扩展YOLOv3架构,使网络更好地专业处理白天和晚上的图像。评估自适应过程中的 residual groops,detection heads and their combination。
3 Task-conditioned domain adaptation
在本节中,我们描述了在适应热域期间调节探测器的方法。中心思想是健壮的行人检测自然地取决于输入图像的low-level semantic qualities,如:分辨是捕获的图像是晚上还是白天。此辅助信息对学习表示形式很有用,可在此条件下确定主要检测任务的适应内部表示形式。下一节描述辅助分类网络(连接到主检测网络),在3.2节,描述了conditioning layers可以策略性地插入网络以修改内部表示形式。我们在3.3节中介绍了YOLOv3的两种alternative conditioning architecture,在3.4节中,我们将所有内容放在一起描述了组合的适应损失(combined adaptation loss)。
3.1 Auxiliary classification network (辅助分类网络)