Effective Fusion Factor in FPN for Tiny Object Detection-目标检测的FPN有效融合因子
本博客仅作阅读学习记录,不作他用
文章名称:Effective Fusion Factor in FPN for Tiny Object Detection
文章地址:https://arxiv.org/abs/2011.02298
文章作者:Yuqi Gong, Xuehui Yu, Yao Ding, Xiaoke Peng, Jian Zhao, Zhenjun Han WACV 2021
发表时间:9 Nov 2020
Abstract
在本文中,我们认为FPN相邻层之间的自上而下的连接对微小物体的检测带来了双重影响,不仅是正面的。我们提出了一个新的概念,融合因子,来控制深层传递给浅层的信息,使FPN适应微小物体的检测。经过一系列的实验和分析,我们探索了如何通过统计方法来估计特定数据集的融合因子的有效值。估计值取决于分布在每个层中的对象数量。在微小物体检测数据集上进行综合实验,例如TinyPerson和Tiny CityPersons。我们的结果表明,当使用适当的融合因子配置FPN时,网络能够在微小对象检测数据集上实现显著的性能增益。
Introduction
基于FPN的检测器,通过自上而下和横向连接融合多尺度特征,在常用的目标检测数据集上取得了巨大成功,例如,MS COCO,PASCAL VOC 和 CityPersons。然而,这些检测器在微小物体检测上表现不佳,例如 TinyPerson 和 Tiny CityPersons。一个直观的问题出现了:为什么目前基于FPN的检测器不适合微小物体的探测,以及如何使它们适应微小物体检测。
如图1所示,随着深层向浅层传递的信息的增加,性能先增加后降低。我们将融合因子定义为融合FPN两个相邻层的特征时,在更深层上加权的系数。我们将 fusion factor(融合因子)定义为融合FPN两个相邻层的特征时,在更深层上加权的系数。
我们工作的主要贡献包括:
- 我们提出了一个新的概念,融合因子,来描述FPN相邻层的耦合度。
- 我们分析了融合因子对微小目标检测性能的影响,并进一步研究了如何设计有效的融合因子来提高性能。而且,我们提供了详细的数学解释。
- 我们表明,通过为FPN设置适当的融合因子,可以在微小目标检测方面实现显著的性能改进。
2. Related Work
2.1. Dataset for Detection
2.2. Small Object Detection
- 1提出比例匹配,将预处理数据集的对象比例与目标数据集对齐,以实现可靠的微小对象特征表示。
- EFPN2构建了一个具有更多几何细节的要素图层,它是通过SR为小对象设计的。
- Noh等人3提出了一种特征级超分辨率方法,使用高分辨率物体特征作为监控信号,并匹配输入和物体特征的相关感受野。
- 陈等人4提出了一种反馈驱动的数据提供器来平衡小目标检测的损失。
2.3. Feature Fusion for Object Detection
- PANet [19]提出了一种自下而上的方法来帮助识别具有浅层详细特征的深层对象。
- 孔[13]提出了全局关注和局部重构的方法,将高层语义特征与低层表征相结合,重构特征金字塔。
- MHN [2]是一个多分支的高级语义网络,旨在解决不同特征映射合并的语义鸿沟问题。
- 聂[21]引入特征富集方案生成多尺度上下文特征
- HRNet [27]通过重复交叉并行卷积进行多尺度融合增强特征表达
- Libra-RCNN [23]利用所有特征层的融合结果减少特征图之间的不平衡。
- ASFF [18]在再次融合时,通过自适应机制预测不同阶段特征的权重。
- SEPC [30]提出金字塔卷积来提高相邻特征层的特征融合效率。
- NasFPN [11]探索了利用AutoML进行各层特征融合的最佳组合方式。
- 谭[28]提出了特征融合的可学习权重。
这些方法从不同方面进一步提高了特征融合的效果。然而,它们都忽略了特征融合受数据集尺度分布的影响。
3. Effective fusion factor
影响FPN微小人物检测性能的两个主要因素包括下采样因子和相邻特征层之间的融合比例。先前的研究已经探索了前一个元素,并得出结论,尽管计算复杂度增加,但下采样因子越低,性能将越好。然而,后一个因素被忽略了。
3.1. What affect the effectiveness of fusion factor?
为了探索如何获得有效的α,我们首先研究什么可以影响融合因子的有效性。我们假设数据集的四个属性影响α:
- 物体的绝对大小;
- 物体的相对大小;
- 数据集的数据量;
- FPN各层物体的分布情况。
首先,我们进行实验来评估融合因子在不同数据集上的效果。s实验结果如图2所示。
跨尺度数据集CityPersons、VOC和COCO对α的变化不敏感,除非α = 0,这对应于没有特征融合。
而在TinyPerson和Tiny CityPersons上,随着α的增大,性能先增大后减小,这意味着融合因子是性能的关键因素,存在一个最优值范围。
在本文中,融合因子大于1.1是不进行的,因为很难在TinyPerson,Tiny CityPersons和CityPersons上收敛。
因此,我们得出结论,物体的绝对大小恰恰影响融合因素的有效性而不是其他三个因素。因此,融合因子的工作原理和方式如下。α通过对梯度反向传播中的损失进行重新加权来确定FPN深层参与浅层学习的程度。数据集中的对象很小,这给FPN各层的学习带来了很多困难。因此,每一层的学习能力是不够的,深层没有额外的能力来帮助浅层。换句话说,FPN深层和浅层的供求关系随着各层学习难度的增加而发生了变化,α不得不降低,这表明各层应该更加注重这一层的学习
3.2. How to obtain an effective fusion factor?
了进一步探索如何获得有效的融合因子,我们设计了四种α,并在TinyPerson上进行了实验:
- 强力解决方案,根据图1列举α。
- 一种可学习的方式,其中α被设置为由损失函数优化的可学习参数。
- .一种基于注意力的方法,其中α由自我注意模块产生,如图6所示。
- 基于统计的解决方案,利用数据集的统计信息计算α。
计算如下:
其中,
N
P
i
+
1
N_{P_{i+1}}
NPi+1和
N
P
i
N_{P_i}
NPi分别表示
P
i
+
1
P_{i+1}
Pi+1层和
P
i
P_i
Pi 在FPN层上的对象数量。
表一给出了四种方法的定量实验。
根据表格分析得到:
首先,蛮力搜索探索最佳α。然而,它包含冗余计算,这限制了大规模应用。
其次,所有非固定α设置都优于基线,其中α设置为1,基于注意力的方法增加了不可忽略的计算量。
第三,只有基于统计的方法获得了与强力搜索相当的性能。
基于统计的方法,命名为 S-α ,根据FPN中相邻层之间的对象数量比例设置 S-α ,如等式2所示。对象数量从整个数据集中计数。我们设计公式是基于这样一个事实,即对于微小目标检测,每个层很难为检测任务捕获代表性特征,这加剧了层之间的竞争。更具体地说,不同头部中的所有层都希望它们共享的参数为它们相应的检测任务学习适当的特征。不幸的是,一些层的训练样本可能比其他层少得多,导致在更新共享参数时,这些层的梯度与其他层相比处于劣势。因此,当 N P i + 1 N_{P_{i+1}} NPi+1较小,或者 N P i N_{P_i} NPi较大时,该方法设置一个较小的α来减小 P i P_i Pi中检测任务产生的梯度,反之亦然,促使网络平等地学习每一层的检测任务。从而提高了微小物体的学习效率。
N
P
N_P
NP的统计过程和α的计算如下:
1)以IoU为原则,选择具有最大IoU的锚,在图像中以真值为正。
2)基于每个层中的正锚和预定义数量的锚,计算每个层中的地面真实数量。
3)对数据集中的每个图像重复步骤1和2,以获得统计结果,然后我们根据等式2计算α。
如图4的左虚线框所示。计算过程不涉及网络的前向传播,因为锚是预定义的,地面真值由数据集提供。细节在Alg1.中给出。
3.3. Can fusion factor be learned implicitly?(融合因子可以隐式学习吗?)
-
Xuehui Y u, Y uqi Gong, Nan Jiang, Qixiang Ye, and Zhenjun Han. Scale match for tiny person detection. In WACV, pages1246–1254, 2020. ↩︎ ↩︎ ↩︎
-
Chunfang Deng, Mengmeng Wang, Liang Liu, and YongLiu. Extended feature pyramid network for small object detection. CVPR, 2020. ↩︎
-
Junhyug Noh, Wonho Bae, Wonhee Lee, Jinhwan Seo, and Gunhee Kim. Better to follow, follow to be better: Towards precise supervision of feature super-resolution for small object detection. ICCV, pages 9725–9734, 2019. ↩︎
-
Yukang Chen, Peizhen Zhang, *g Li, Yanwei Li, Xiangyu Zhang, Gaofeng Meng, Shiming Xiang, Jian Sun, and Jiaya Jia. Stitcher: Feedback-driven data provider for object detection. CVPR, 2020. ↩︎