优点:
(1)因为输出是pixel-based预测,所以可以复用semantic segmentation方向的tricks;
(2)可以修改FCOS的输出分支,用于解决instance segmentation和keypoint detection任务;
1.网络结构
<style></style>
FCOS的网络结构如下图,显然,它包含了如下3个部分,
(1)backbone网络;
(2)feature
pyramid结构;
(3)输出部分(classification/Regression/Center-ness);
<style></style>
2.center-ness输出分支
<style></style>
center-ness,可以译成中心点打分,它表征了当前像素点是否处于ground truth target的中心区域,以下面的热力图为例,红色部分表示center-ness值为1,蓝色部分表示center-ness值为0,其他部分的值介于0和1之间。
<style></style>
其中,∗表示ground truth。衡量了当前像素偏离真实目标的中心点的程度,值越小,偏离越大。
<style></style>
3.损失函数
<style></style>
Lcls表示分类loss,本文使用的是Focal_loss;Lreg表示回归loss,本文使用的是IOU loss。
<style></style>
4.缺点:有些人评价说该方法使得单阶段检测算法变慢了,论文也没有提到算法速度的问题,没有实验证明。然后就是center-ness是论文的一个好的创新点,但是缺少理论的支撑。