[text detecte] RRPN

  • https://arxiv.org/pdf/1703.01086.pdf
  • https://blog.csdn.net/dexterod/article/details/106048699

文章目录


[text detecte] RRPN

[text detecte] RRPN

RRPN 框架及旋转建议框 | RROI Pooling层

总结:

旋转边框表示用 (x, y, h, w, θ) 五元组表示;
旋转锚点框使用角度、比例尺和长宽比参数。角度为-π/6, 0, π/6, π/3, π/2, 2π/3,比例尺为8,16,32,长宽比为1:2、1:5和1:8。feature map上的每个点,生成 54 个 r-anchor;
在开始训练之前,先定义好正负锚点的标定规则:
    1) 如果锚点对应的reference box与ground truth的IoU值最大,标记为正样本;
    2) 如果锚点对应的reference box与ground truth的IoU>0.7,标记为正样本;
    3) 如果锚点对应的reference box与ground truth的夹角小于π/12,标记为正样本;
    4) IoU小于0.3,标记为负样本;
    5) IoU大于0.7,但是夹角大于π/12,标记为负样本;
    6) 剩下的既不是正也不是负,不用于训练。
损失函数的计算,比传统的多任务损失函数增加了一个角度的Loss计算;
倾斜IoU计算:多边形化为多个三角形面积计算;
倾斜非极大值抑制;
RRoI Pooling层。
————————————————
版权声明:本文为CSDN博主「dexterod」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/dexterod/article/details/106048699

旋转边框表示

在训练阶段,文本区域的ground truth被表示为带有 ( x , y , h , w , θ ) (x, y,h,w, θ) (x,y,h,w,θ)的旋转边框,坐标(x, y)表示边框的几何中心。
高度h设置为边框的短边,宽度w设置为长边。θ是从x轴的正方向到与旋转边界框的长边平行的方向的夹角。

[text detecte] RRPN

[text detecte] RRPN

旋转锚

使用-π/6, 0, π/6, π/3, π/2, 2π/3 这六种不同的取向。
由于文本区域通常具有特殊的形状,因此将长宽比改为1:2、1:5和1:8,以覆盖广泛的文本行。另外,尺度为8,16,32。

一个 proposal 由带有5个变量(x,y,h,w,θ)的 r-anchor 中生成。对于feature map上的每个点,生成 54 个r-anchor(6个方向,3个纵横比,3个比例尺),在每个滑动位置的reg层生成270个输出(5x54), cls层生成108个score输出(2x54)。然后,我们使用 RRPN 滑动 feature map,为 feature map 生成 HxWx54个锚点,feature map的宽度为W,高度为H。

[text detecte] RRPN

学习旋转建议(Learning of Rotated Proposal)

在生成 r-anchor 的过程中,需要一个针对 r-anchor 的抽样策略来执行网络学习。
我们首先定义 loU 重叠为 ground truth 和 r-anchor 的斜矩形之间的重叠。
正 r-anchor 特征如下:
(i) 最高的loU重叠或大于0.7的loU,
(ii) 相交角度相对于ground truth小于π/12。
负 r-anchor 特征如下:
(i) IoU小于0.3,(ii) 大于0.7但夹角大于π/12。
未被选为正或负的区域在训练中不使用。

loss

[text detecte] RRPN

精确细化建议

1. 斜IoU计算

[text detecte] RRPN

2. 斜非极大值抑制计算(Skew-NMS)

传统的NMS只考虑IoU因素(例如,IoU阈值为0.7),但这对于带有方向的proposals是不够的。
例如,比例为1:8,角度小于为π/12的锚的loU值为0.31,小于0.7;然而,它可以被认为是一个正样本。
因此,Skew-NMS包括两个阶段:
(i)保持最大IoU大于0.7;
(ii)如果所有的proposals IoU 在[0.3,0.7]的范围内,保持proposals与GT框的角度差最小(角度差应小于π/12)。

RRoI Pooling Layer

在Fast-RCNN[48]中,Rol Pooling层从每个proposal 的feature map中提取一个固定长度的特征向量。每个特征向量被输入到全连接层中,最终分支到同级的cls和reg层中,输出是输入图像中对象的预测定位和类。由于图像的特征映射只需要对每幅图像进行一次计算,而不是对每一个生成的建议进行计算,因此加速了目标检测框架。Rol pooling层使用max pooling将任何有效的Rol中的特征转换成一个具有固定空间范围hr×wr的小feature map,其中hr和wr是独立于任何Rol的超参层(layer hyperparameters)。

[text detecte] RRPN

上一篇:实验四 决策树算法及应用


下一篇:在Tomcat里使用配置连接池连接数据库