DenseBox：思想超前的早期Anchor-free研究 | CVPR 2015

2023-10-03 08:30:22

DenseBox检测算法的设计十分超前，如今很多Anchor-free方法有其影子，如果当时不是比Faster R-CNN晚了一点出现，可能目标检测领域很早就开始往Anchor-free的方向发展了

来源：晓飞的算法工程笔记公众号

论文: DenseBox: Unifying Landmark Localization withEnd to End Object Detection

论文地址：https://arxiv.org/abs/1509.04874

Introduction

DenseBox是早期的Anchor-free目标检测算法，当时R-CNN系列在小物体的检测上有明显的瓶颈，所以作者提出DenseBox，在小物体的检测也有不错的表现。在DenseBox提出的早些时间，著名的Faster R-CNN出现了，其强大的性能主导了目标检测算法往anchor-based的方向发展。直到FPN的出现后，Anchor-free算法的性能才有了很大的提升，更多的工作开始涉及Anchor-free领域。目前很多Anchor-free目标检测研究都有DenseBox的影子，所以DenseBox的设计思路还是很超前的。

DenseBox for Detection

DenseBox的整体设计如图1所示，单个卷积网络同时输出多个预测框及其类别置信度，输出的特征图大小为$5\times \frac{m}{4}\times \frac{n}{4}$。假设像素$i$位于$(x_i, y_i)$，其期望的5维向量为$\hat{t}_i={\hat{s}, \hat{dx^t}=x_i - x_t, \hat{dy^t}=y_i - y_t, \hat{dx^b}=x_i - x_b, \hat{dy^b}=y_i - y_b }$，第一个为分类置信度，后四个为像素位置到目标边界的距离，最后，将所有像素的输出转化为预测框，经过NMS处理后进行最后的输出。

Ground Truth Generation

DenseBox在训练时没有将完整的图片作为输入，而是截取包含目标以及足够背景的较大区域进行训练。在训练时，将截取的图片resize大$240\times 240$，保证人脸位于截取区域的中心以及高度大约50像素，输出$5\times 60\times 60$的特征图。正样本区域是目标中心点半径为$r_c$内的圆，$r_c$与目标的大小相关，论文设置为0.3。如果截取的区域包含多个人脸，仅保留中心点在截取区域中心0.8到1.25范围内的人脸，其它均认为是负样本。

Model Design

DenseBox的网络结构如图3所示，包含16个卷积层，前12个卷积层由VGG19初始化，网络也添加了一些不同层之间的特征融合，可以综合不同感受域的特征。

Multi-Task Training

网络同时进行分类和位置预测，网络由两个任务共同学习，分类任务的损失值直接通过L2损失计算：

位置预测任务的损失值也通过L2损失计算：

由于论文采用了截取图片的方式进行训练，就会面临样本制作的问题，而DenseBox在正负样本制作以及学习上面做了一些工作：

Ignoring Gray Zone，灰色区域是处于正负点之间的过渡区域，不参与损失值的计算。对于一个非正样本点，如果其半径为2的范围内存在正样本点，则归入灰色区域。
Hard Negative Mining，在训练过程中，根据公式1将样本排序，取top 1%作为hard-negative，能够帮助网络重点学习这些难样本。
Loss with Mask，根据像素点的类型定义特征图的掩膜$M(\hat{t}_i)$，并结合公式1、公式2以及掩膜输出最终的损失值：