ATSS论文阅读笔记

2023-09-23 20:04:15

ATSS论文阅读笔记

论文名称：Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

论文链接：https://arxiv.org/abs/1912.02424

代码地址：https://github.com/sfzhang15/ATSS.

摘要

1、Anchor-based方法和Anchor-free的方法最重要的差异就是在如何定义正负训练样本;

2、ATSS（Adaptive Training Sample Selection）根据目标的统计分布自动选择正负样本，可以明显地缩短anchor-free与anchor-based之间的差距。

引言

近些年，Anchor-free的方法之所以被关注到是因为FPN与Focal Loss这两种方法的出现，这里简单说明下我个人的看法，FPN能够输出多个层级的特征，允许不同尺度的物体在不同层级的特征预测得到，如果没有FPN，想像一下如何使用Anchor free的方法，我能想到的就是YOLOv1，如果object的中心落在特征图网格内，则由该网格负责预测GT框，YOLOv1的缺点大家也很清楚，不同物体落入同一个网格的话，那么只能预测其中一个，另一个则无法预测。且每幅图片只能预测98个候选框，则显然是不够的。但有了FPN，上面两个缺点则可以较好地解决，不同尺度的物体落入的特征层级不同，则可以在不同层级检测出两个可能落入同一个网格的物体。另外多层级特征也就可以预测更多的候选框。也就可以提升模型的召回率。再来就是Focal loss，Focal loss告知在Dense prediction中正负样本的选取有多么重要，而Anchor free则是标准的不能再标准的Dense prediction了。因此说FPN与Focal loss的出现才让Anchor free算法重新受到了广泛的关注。

目前主流的Anchor-free的方法可以分成两种，1）通过定位几个预定的关键点，来确定物体的空间位置，这类方法算作keypoint-based methods，代表算法CornerNet和ExtremeNet。2）通过物体中心点以及中心点距离四条边界的距离，这类方法算作center-based methods，代表算法CenterNet，Foveabox，这些Anchor-free的检测器抛弃了与anchors相关的超参数，并且取得了与anchor-based方法想接近的效果。作者这里拿FCOS与RetinaNet作比较，探究造成anchor free的方法与anchor based的方法差异原因。

FCOS与RetinaNet的主要差异：

RetinaNet在特征图上每个点会叠加多个不同长宽比的anchor，而FCOS则是在每个位置叠加一个anchor的中心点；
RetinaNet是通过IoU来定义正负样本的，而FCOS则是通过anchor的中心点与GroundTruth的中心点的距离与尺度定义正负样本的。
RetinaNet的回归策略是预测预设定的anchor box与物体GroundTruth的偏移量，而FCOS则是预测anchor中心点与GroundTruth中心的偏移量，以及点与各个边界的距离。

作者通过实验，证实**差异（2）**是导致两个检测器效果差异的主要原因。并证实了在同一个位置堆叠多个不同的anchor是不必要的操作，因此作者提出了ATSS，根据物体的统计分布来自动地挑选正负样本。最终在COCO上取得了SOTA的结果。

方法

作者通过设计对比实验，深究FCOS与RetinaNet两者的差异。首先控制差异（1），将RetinaNet每一层特征只分配一个anchor，anchor的大小为8S，S表示当前特征层下采样的倍数。此外作者还把FCOS一些提点方法补充到了RetinaNet上了，实验结果如下：

发现仍然有0.8%个点的差异，那这个部分差异从哪里来呢？只能来自剩下的两个差异了，差异（2）说白了就是分类子任务，差异（3）则是回归子任务。

分类

RetinaNet是通过IoU阈值来挑选正样本的，GT框与候选框的 I o U > Θ p IoU>\Theta_{p} IoU>Θp则认为该候选框为正样本而则 I o U < Θ n IoU<\Theta_{n} IoU<Θn则认为该候选框为负样本，其他样本则忽略。

而FCOS通过空间和尺度的约束来划分正负样本，如果anchor points在GT框内，则该point为候选点；然后通过point与各边界距离的最大值是否在该层级特征预设定的范围内，最终决定该point是否为正样本还是负样本。

作者通过以下的实验，两种挑选正负样本的方式，确实是导致FCOS与RetinaNet的差异的原因之一，FCOS使用IoU策略，效果下降。与RetinaNet基本一致，而RetinaNet使用空间和尺度的约束来挑选正负样本，效果提升至37.8%，与FCOS一致了。

**PS：**这里的实验没有太理解，FCOS如何接入IoU策略的，在没有anchor box的情况下，哪里来的IoU？

回归

RetinaNet是通过计算四个偏移量，anchor中心点与GT框中心点的偏移量与高宽的偏移量，而FCOS回归的则是中心点与四条边界的距离；在下图展示的十分明显。

通过实验发现，无论是回归点还是回归候选框，两者的差异都不是很大，

说明差异（3）不是造成anchor-based与anchor-free方法效果差异的主要原因。进一步证实了差异（2）正负样本的挑选才是anchor-based与anchor-free方法效果差异的主要原因！

Adaptive Training Sample Selection

ATSS其实并没有很复杂，也是大家日常在挑选训练集的时候，可能都会用到的方法，只是这里用到了挑选正负样本上。ATSS算法步骤如下：

首先为每一个GT box挑选中心点与其最近的K个anchor box（熟不熟悉，YOLOF的k-近邻算法

码农公寓

ATSS论文阅读笔记

ATSS论文阅读笔记

摘要

引言

相关工作

Two stage method：

One stage method

keypoint-based method

Center-based method

方法

分类

回归

Adaptive Training Sample Selection

码农公寓

ATSS论文阅读笔记

摘要

引言

相关工作

Two stage method：

One stage method

keypoint-based method

Center-based method

方法

分类

回归

Adaptive Training Sample Selection

相关文章