Multispectral Pedestrian Detection using Deep Fusion Convolutional Neural Networks（基于深度学习的多光谱行人检测）

2023-11-11 14:20:52

Multispectral Pedestrian Detection using Deep Fusion Convolutional Neural Networks

2016年6月 ESANN

贡献：1.首先将CNN用于多光谱数据图像（multispectral image data）

2.提出两种模型融合方式前融合和后融合，进行相关实验，性能优于ACF+T+THOG

views：以目前的眼光看，比较一般，是常见的多模态融合的手段。

1.Introduction：

基于可见图像的行人探测器的主要缺点是它们在夜间的性能较差，并且对光照变化敏感。为了克服这些缺点，将可见光摄像机的信息与长波长红外（热）摄像机提供的信息融合起来是有帮助的[3]。由于热像仪所处的光谱带，它不仅省去了对外部光源的需求，而且受恶劣天气条件的影响也较小。另一方面，由于背景温度高，热像仪在白天通常会降低图像质量。

融合抽象级别分类：像素级、特征级、决策级

地位：首次进行可见光和红外图像的深度模型融合，性能超过SOTA模型

2.MultispectralBenchmark andBaseline

数据集：KAIST 95.3K 对可见光图像，分为训练集50.2K图像，其中41.5标记行人图像，以及测试集45.1K，其中44.7K标记行人。

3.MultispectralDeepModels

基于RNN网络，使用Proposal generator生成候选边界框，并转化为标准大小由CNN进行评估。使用ACF+T+THOG detecto，基于这些建议，使用CNN融合不同模态信息并进行二进制分类。

3.1 Fusion Architecture

提出基于早期融合和晚期融合的CNN架构。早期融合架构在像素级进行两种模态的融合。后期融合使用单独的子网为每个模态生成特征表示，并组合到一个Full Connected layer层。架构都基于CaffeNet。

早期的融合架构。对于此体系结构，我们使用CaffeNet并将每个卷积层的过滤器数量增加4/3，在第四个输入通道处增加。此外，我们将完全连接的层中的神经元数量减少到2048，并用二进制分类层替换1000类分类层。此外，将第一卷积层的步幅减小为二，以便在最后一个卷积层之后获得足够的空间分辨率。通过在像素级别组合这两种模态，我们期望可以更好地利用传感器模态之间的固有关系。

后期融合架构。后期融合体系结构在子网中分别处理两种模态的数据，并将得到的特征表示融合到一个完全连接的层中。这两个子网均基于CaffeNet，没有分类层，使用类似于早期融合的CNN，其完全连接层中包含2048个神经元，而在其第一卷积层中的跨度为2。在处理热图像的子网中，我们还将每个卷积层的过滤器数量减半。基于CaffeNet的第一卷积层中的灰度滤镜数量得出0.5i s。两个子网的第二个完全连接层生成的最终激活被串联在一起，并与4096个神经元融合在一个完全连接层中。融合层之后是ReLU非线性层，辍学层，最后是二进制分类层。后期融合网络的参数以端到端的方式学习。

3.2Training Procedure

由于缺少可用的大型可见热图像数据集，因此我们在可见数据上对模型进行了预训练。红色通道(RGB中的R通道)用作热通道的粗略近似值。考虑到真实数据中红色图像和热图像之间的差异，这种近似可能太粗糙了。

预训练：a 在ImageNet上进行图像分类任务训练，b 在CALTECH上fine-tune网络。后融合的两个子网单独训练，当子网的权重固定并且仅训练融合层时，可以达到最佳融合效果。

此外，我们将原始训练数据分为包含92％图像的训练集和包含其余8％图像的验证集。

4.Results

合理的白天和合理的夜晚子集分别包含白天和夜间捕获的图像，合理的所有数据都是通过将这些数据与数据集结合而形成的。对比预训练和未使用预训练，白天，LateFusion+Pretraining体系结构性能比基准好5.12%，在夜间仅为10.4%。即使在预训练期间用红色通道替换热通道是一个非常近似的近似值，它也会导致所有体系结构中的性能显着提高。

图2：引入的融合架构与最新的ACF + T + THOG检测器的检测性能比较

5 conclusion

在多光谱图像数据的基础上，首次将深层CNN用于行人检测，并评估了两种深层架构，一种用于早期融合，另一种用于后期融合。我们对KAIST多光谱基准数据集的分析表明，基于预训练的后期融合架构可以显着优于最新的ACF + T + THOG解决方案，而在大多数情况下，早期融合架构无法达到最先进的性能。这可能是由于早期融合网络无法在给定设置中学习有意义的多峰抽象特征。

码农公寓

相关文章