Improving Multispectral Pedestrian Detection by Addressing Modality Imbalanece Problems ECCV2020 引用量:1 南京大学
贡献:指出多光谱不平衡问题,并巧妙地设计了新的融合网络结构,包括多个网络结构,在其他领域(检测、多模态融合)都有着重大贡献。
views:很好的一篇文章,对 how to fuse 的问题作了很好的回答,文章读起来有点晦涩难懂,提出了很多tiny neural netwrok,而且模型结构图画的不好,不清晰。内容写的也不是很好懂(很多地方都没展开说,就提了个名字),不适合新手阅读。
Ideas:所设计的网络结构的确是直击多光谱融合问题的核心,同ECCV2020那篇文章(提出了一种task-conditioned architecture,利用辅助白天/夜晚分类网络的内部学习表示,在检测器网络中的关键点注入条件参数,以使可见光谱检测器适应热域)相比,共同点是都关注了光照变化问题,本篇将光照变化作为一种权重直接更新特征图,而那篇文章,将早期神经网络的特征图提取,作为一个单独分支,通过一系列操作,再接入神经网络深处,以使检测器在day/night下更好地学习。不同点:这篇文是正经做融合的(输入为双模态),那篇文章是借助可见光推动红外发展(输入为单模态)(有点类似我的毕设,通过无监督学习方式/通过GAN网络/通过灰度图着色等,感觉都可以进行类似的任务)。本文提到的不平衡问题以及解决方案的确很不错,肯定要借鉴或者改进,但是我没发现他这个结构的问题在哪里(唯一的缺点可能就是backbone比较旧,还有最后的多尺度处理那里和FPN等还是有点区别)。
Re-say:本文的重点在解决多光谱融合的不平衡问题(这是多模态融合的基本问题),归类为两种,分别为照明模态不平衡(数据空间)(day和night引起的)和特征模态不平衡(特征空间)(rgb和thermal中相同的object有着不同的特征表示)。提出MB-Net(如图2所示),包括了三大部分,feature extraction(backbone为嵌入DMAF的ResNet-50),illumation aware feature alignment(IAFA=AP+MA+IAFC),illumination mechanism(求出光照值)。
DMAF:双管道的resnet,并针对差分模态(FR-FT)通过GAP等求出权重,加权进行交叉融合(类似通道注意力机制,和SKNet很像)(主要目的是融合模态信息)。
backbone:将DMAF插入到Resnet-50
neck:重点是解决不平衡问题(两种),IAFA=AP(anchor propose)+MA(modality alignment module)+IAFC(illumation aware feature complement),在通过AP前,首先通过illumination mechanism求出光照值(解决照明模态不平衡问题,其实就是根据光照,生成不同权重,进而决定了两种模态信息对后续的贡献程度)。AP是进行提取anchor(文中没展开说),MA进行模态对齐(解决特征模态不平衡问题,其实就是对每个像素预测了偏移量,通过双线性插值进行移动),IAFC对生成的anchor和confidence进行微调。至此,网络整体结构介绍完毕。
摘要:观察到模态不平衡现象,提出模态平衡网络(基于SSD构造了MBNet),首先,设计一个Differential Modality Aware Fusion(DMAF)以两种模态相互补充,其次,illumination aware feature alignment(IAFA) 根据照明条件选择互补特征,自适应对齐特征。在KAIST和CVC-14上达到SOTA。
1.Introduction
近年来,多模态融合(RGB+LIDAR,RGB+Depth,RGB+thermal)兴起,有着众多好处,但有效融合仍是难题。
多模态输入的目标检测一般优化过程的主要就是不平衡问题(两种数据源不同引起的)。作者举例常见的失衡问题:foreground-to-background imbalance,是由正例和负例的数量不相等引起的。还有multi-task ;osses minimization,通过平衡系统指导优化(举例子说明不平衡很重要,引出多光谱的不平衡问题)。
多光谱不平衡问题可分为两类:the illumination modality(照明模态不平衡) and the feature modality imbalance problems(特征模态不平衡)。The illumination modality imbalance意味着白天和夜间图像之间的照明条件有所不同,直观上,在白天,RGB具有更清晰的纹理特征,在夜间,thermal有着更鲜明的行人形状。两个分支对损失贡献不同,应根据照明条件自适应优化(这里作者提出illumation gate求出相应的光照值)。Feature modality imbalance problem表明不同模态的未对准和不充分融合会导致特征贡献不均(通过IAFA来解决)。一方面,行人特征在两种模态中表现不同(表观特征不同),另一方面,在卷积核的固定接受域中导致不平衡的模态表示(意思应该是卷积核提取的特征不同)。平衡和融合是多光谱考虑的基本问题。单纯的concatenate没有充分利用特征内在互补性。
主要贡献:1>指出多光谱行人检测模态不平衡问题 2>提出one-stage detector named Modality Balance Network(MBNet)包括 Differential Modality Aware Fusion(DMAF)module 和 illumination aware feature alignment(IAFA)module以解决模态不平衡问题。MBNet(嵌入DMAF的backbone)可能对其他cv任务有贡献 4>在KAIST和CVC-14上达到SOTA
2 Relate Work
2.1 Multispectral Pedestrian Detection
2.2 Imbalance Problems In Object Detection
文献[33]对object detection中的不平衡问题进行了全面综述(列入计划,后续读一下),分为4类,spatial imbalance,objective imbalance,class imbalance and scale imbalance。 Spatial imbalance和objective imbalance 分别关注边界框和多个损失函数的空间特性。Class imbalance是由训练数据中不同class的严重不同引起的。RetinaNet通过重塑标准交叉熵损失来解决类别不平衡问题。AP-loss和DR-loss也为解决类别不平衡提供了设计loss function的思想。Scale imbalance在bbox尺寸过大时,会发生规模不平衡。SSD根据不同层的特征进行独立预测,不可靠。FPN网络采用了自上而下的路径平衡各种各种规模的功能。可以通过融合和完善金字塔特征图来进一步增强FPN [28]。(检测中的问题)
不同模态特征应该被完全集成和表示,以便于在训练中获得平衡的模态优化。
3 Approach
MBNet包括三部分:feature extraction(backnone:嵌入DMAF 的resnet),illumination aware feature alignment(IAFA=AP+MA+IAFC),illumination mechanism(求illumination value)
(搞了好多小模块的拼接,对阅读提出了更高要求)
3.1 Differential Modality Aware Fusion Module(DMAF)
为解决特征模态不平衡问题,提出使用 differential modality information(差分模态信息)从一种模态增强另一种模态。
受差分放大器电路启发,common-mode被抑制,differential-mode被放大。
FT和FR分别表示thermal和RGB的feature map。Common-mode反映了公共特征,而差异模态部分反映了两种模态捕获的独特特征。DMAF模块的关键思想是使用channel-wise differential weighting(通道差分加权)从另一个模态中获取互补特征。图2右上角所示,直接减去两种模态获得差分特征FD,将FD通过GAP得到global differential vector,通过tanh激活,生成fusion weight Vw ,Vw=σ(GAP(FD)),交叉相乘,再通过类似残差结构(GAP这里的操作感觉有点像通道注意力机制,尤其像sknet,见附图1)
DMAF的可视化结果如图3所示,随着CNN的深入,行人特征逐渐凸显,背景进行re-integrated(对有用背景信息进行完善,消除嘈杂的背景信息)。DMAF有效地整合了形态特征,促进背景整合,促进网络形态交互(的确是起到了一定效果,但是好像也没很突出吧,至少对于检测行人好像没有很突出,反而对于车辆感觉好一些)。
3.2 Illumination Aware Feature Alignment Module(IAFA)(照明感知特征对齐模块)
IAFA作用是使模型适应不同的照明条件(重点,ECCV2020还有一篇是利用条件自适应,至少出发点相同),并在region proposal stage对齐两种模态特征。
图2顶部,设计了一个微型神经网络捕获照明值(illumination gate),只使用RGB,resize 56x56,再通过illumination aware module(2个conv+3个FC,这里图好像画错了)。每个conv后跟relu+2x2 max-pooling,采用 cross entropy loss function。Illumination loss LI 如下: