RepPoints: Point Set Representation for Object Detection
ICCV2019
Abstract
- 边界框只能提供粗糙的定位,导致了粗糙的特征提取
- 本文提出了RepPoints(representative points),用一组样本点对目标进行识别和定位
- 能达到和基于Anchor的方法相当的精度
- 46.5 AP and 67.4 A P 50 AP_{50} AP50 on the COCO test-dev
Introduction
- 如图1所示,RepPoints通过Groundtruth边界框的监督信息来进行训练
- RepPoints是一种自上而下的方法,其他的Anchor-Free的方法都是自下而上的
- 不同于ExtremeNet需要目标的mask作为额外的监督信息,RepPoints在无需额外的监督条件下生成细粒度的定位
Related Work
- 本文使用了可变形卷积
- 目标其他的表示形式:
- 用于行人检测的椭圆表示
- 旋转边界框
- CornerNet用两个角点表示
- ExtremeNet用四个极值点表示
- 其他的Anchor-Free的方法需要一些后处理去分组
RepPoints
- RepPoints用一组自适应的采样点表示目标( n n n是样本点个数,文中默认为9):
- 边界框的多次回归细化对基于Anchor的方法至关重要,这里把采样点的细化表示为(
{
(
△
x
k
,
△
y
k
)
}
k
=
1
n
\{(\triangle x_k,\triangle y_k) \}_{k=1}^n
{(△xk,△yk)}k=1n表示新样本点相对于旧样本点的偏移量):
- 边界框的细化存在一个问题,中心点坐标和宽高的细化比例不同,RepPoints没有这个问题
- 由于训练的时候需要边界框,所以需要把RepPoints转换成边界框,文中提供了三种思路:
- Min-max function:在所有点中找边界值,获得包含所有点的外接框
- Partial min-max function:选取部分点进行上述操作
- Moment-based function:求出所有点的均值和方差,通过另外两个全局学习的系数将均值和方差还原为box
RPDet: an Anchor Free Detector
-
如图2,RPDet由两个基于可变形卷积的模块组成
- 通过回归中心点的偏移获得第一组RepPoints(对每一个点回归N对偏移量)
- 根据第一组RepPoints生成的边界框进行分类
- 第二组RepPoints由第一组RepPoints加上定位分支学习到的偏移量得到
- 这一部分只有定位损失,旨在找到更精确的定位
-
类似Yolo v1,采用中心点作为目标的初始表示,这种表示可能出现的问题是两个目标的中心点在同一个位置,使用FPN可以有效的缓解这种问题
-
检测头的网络结构如图3
-
分类损失采用Focal loss
-
定位损失为Groundtruth和预测框的左上角和右下角的Smooth L1损失
Experiments
-
Ablation Study
- RepPoints vs. bounding box(类似于yolo v1)
- 定位损失和分类损失的作用
- Anchor-free vs. anchor-based
-
RepPoints生成bbox的方式
-
RepPoints with deformable RoI pooling
- 和sota方法对比
Conclusion
- 这是我看的第一篇可以不断进行回归的Anchor-free的方法,还引入了可变形卷积是个很好的idea,我觉得可变形卷积和Anchor-free天然适配