background
任务:通过对语义特征进行编码,提高定位精度
关键词:Multi-Region CNN Model
Introduction
之前的目标检测模型,虽然使用了深层特征,但是实际上纯外观特征、不同区域(对象部分)的不同外观、上下文外观、对象边界两侧的联合外观以及语义等信息对于目标的定位也是十分重要,本文的作者的目的就是深度发掘目标区域的不同划分,目标周围的背景等相关因素,形成一个弱监督器,辅助得到更加准确的目标定位。
其次目标检测和语义分割之间的联系也是十分紧密,所以作者希望得到一个基于语义分割的目标检测器,最终的实验数据显示,也确实性能上得到了很大的提升。
总而言之,本文的主要贡献如下:
1)开发的多区域cnn模型,因为丰富了目标的表示,使得其对于目标的外观等因素产生了更强的敏感性,检测和定位的精度得到提升
2)因丰富了目标的表示,基于上述的方法,产生的基于语义分割的目标检测器的性能十分突出
3)通过构建小型网络,反复的对提案进行打分,nms,得到高质量的proposals,提升整体的性能
4)我们的检测系统在VOC2007和VOC2012检测挑战上分别实现了78.2%和73.9%的mAP,大大超过了以往的水平
Model
整体结构
基本思路是将整张图片输入到卷积层中,得到激活层,下面的不同提案方式,分别映射到激活层中的相应区域,裁剪,输入到region adaptation components中。
Region components and their role in detection
几种不同的选择方式:
原始候选框:这是在R-CNN[10]中使用的候选检测框本身(图3a)。在这种类型的区域上训练的网络被引导来捕获整个对象的外观信息。当它单独使用时,就构成了我们工作的基线。
半框:候选框的左/右/上/下半部分(图3b, 3c, 3d和3e)。对每一个图像进行训练的网络,将被引导学习只在物体的每一半或物体边界的每一边呈现的外观特征,旨在使表示对遮挡更具鲁棒性。
*区:在我们的模型中有两种类型的*区(图3f和3g)。对它们进行训练的网络被引导捕捉物体中心部分的纯外观特征,该部分可能较少受到旁边其他物体或背景的干扰。
边界区域:我们包括两个这样的区域,形状为矩形环(图3h和3i)。我们期望这些网络将被引导专注于物体边界两侧的联合外观特征,也旨在使表征对不准确的定位更加敏感。
上下文区域:有一个这种类型的区域具有矩形环形状(图3j)。它所分配的网络被驱动专注于围绕着一个物体的上下文外观,例如它的背景或它旁边的其他物体的外观
Weakly supervised training
可见模型的目标处作为监督的标准,通过训练,右侧的图片能够大致的反应目标的轮廓。
CNN region adaptation module for bounding box re-
gression
构建含有两个隐藏层,一个预测层(box预测)的神经网络
对于目标的初始边框记为
B
c
0
B^0_c
Bc0得分为nms(阈值为0.3)阈值下的一个数字,得分记为
s
i
,
c
0
s^0_{i,c}
si,c0
对于图像X中的c类别,因迭代过程,边框,分数的预测:
B
i
,
c
t
=
F
r
e
g
(
B
i
,
c
t
−
1
∣
c
,
X
)
B^t_{i,c}=F_{reg}(B_{i,c}^{t-1}|c,X)
Bi,ct=Freg(Bi,ct−1∣c,X)
s
i
,
c
t
=
F
r
e
c
(
B
i
,
c
t
−
1
∣
c
,
X
)
s^t_{i,c}=F_{rec}(B_{i,c}^{t-1}|c,X)
si,ct=Frec(Bi,ct−1∣c,X)
迭代次数t=1,…,T
候选区域:
D
c
t
=
(
s
i
,
c
t
,
B
i
,
c
t
)
i
=
1
N
c
,
t
D_c^t=(s_{i,c}^t,B_{i,c}^t)_{i=1}^{N_{c,t}}
Dct=(si,ct,Bi,ct)i=1Nc,t
N
c
,
t
N_{c,t}
Nc,t是一张图片c类别下的提案的数目
通过上述的方式进行迭代,得分小于阈值的淘汰,最后得到高分的提案
然后通过nms(阈值0.5)进一步筛选,最后的提案通过加权得到最后的box
加权方式:
w
j
,
c
=
m
a
x
(
0
,
s
j
,
c
)
w_{j,c}=max(0,s_{j,c})
wj,c=max(0,sj,c)
Experiments
Learn from paper
主要对提案区域进行弱监督的训练,增强模型对形状等因素的敏感度,可以通过不同的划分,增强对提案区域的表征能力。