background
任务:使用单一深度神经网络,加速预测速度,保持准确率
关键词:The Single Shot Detector (SSD)
Introduction
以faster-rcnn为例,虽然准确率很高,但是预测速度很慢,并且训练过程复杂,SSD的提出,主要是基于VGG16,然后对Conv5_3层的feature maps进行卷积运算,生成特征金字塔,对于每层的feature maps,通过将点位映射到原图像中,生成中心点,然后通过选择比例和纵横比,生成建议框。
对于预测,通过对特征金字塔的每层feature maps首先进行归一化,然后通过卷积,生成种类的预测分数,和targets(类似于faster-rcnn的策略),然后将这一层的feature maps进行卷积运算,生成下一层的feature maps
Model
整体结构
Matching strategy
对于默认的边框,对truth-ground计算iou,iou大于0.5的记为阳性,否则为阴性,允许一个truth-ground对应多个边框
LOSS
与faster-rcnn的损失函数基本一致
整体的损失函数:
L
c
o
n
f
L_{conf}
Lconf:
L
l
o
c
L_{loc}
Lloc:
这里的损失函数与faster-rcnn的损失函数一致。
scales and aspect ratios
其中
s
m
a
x
=
0.9
,
s
m
i
n
=
0.2
s_{max}=0.9,s_{min}=0.2
smax=0.9,smin=0.2
特征金字塔*m层,k是第k层
w
k
a
=
s
k
a
r
w_k^{a}=s_k\sqrt{a_r}
wka=skar
h
k
a
=
s
k
a
r
h_k^a=\frac{s_k}{\sqrt{a_{r}}}
hka=ar
sk
s
k
′
=
s
k
s
k
+
1
s_k^{'}=\sqrt{s_{k}s_{k+1}}
sk′=sksk+1
其中
a
r
∈
[
1
,
2
,
3
,
1
2
,
1
3
]
a_{r}\in{[1,2,3,\frac{1}{2},\frac{1}{3}]}
ar∈[1,2,3,21,31]
i,j是feature maps的像素点的位置索引
∣
f
k
∣
|f_{k}|
∣fk∣是feature maps的高或宽
上述位置坐标乘原图的大小即为边框的中心点的位置坐标。
Experiment
PASCAL VOC2007
PASCAL VOC2012
COCO
Learn from paper
单一的深度检测网络,应用的特征金字塔,对不同分辨率的目标表现优秀
结构简单,训练速度和预测速度都很快,而且准确率没有下降。