【论文】RRPN:Arbitrary-Oriented Scene Text Detection

一、引言

(1)主要内容

        本文介绍了一个基于旋转的方法和一个端对端的任意方向的文本检测系统,由于结合了方向信息,该系统可以生成任意方向的候选框。

  • RRPN被用来生成包含文本角度信息的倾斜候选框,这个角度信息随后会被用于边框回归。
  • 旋转RoI(RRoI)可以将任意方向的候选框投影到特征图上。
  • 使用一个两层网络作为最终的文本/背景分类器。

(2)创新点

  • 使用基于区域建议的方法预测文本的方向信息,并加入了新的结构,如RRoI池化层和旋转候选框的学习。
  • 使用新的策略对任意方向的区域候选框进行了优化。
  • 使用本文方法对三个文本数据集进行了测试,验证了该方法的有效性。

二、方法

【论文】RRPN:Arbitrary-Oriented Scene Text Detection

1. 主要结构

(1)两个分支共享VGG-16的特征提取结果:RRPN分支和最后一层特征图的复制

(2)RRPN生成任意方向的候选框,并进行框回归使之与文本实例更契合

(3)对RRPN的输出结果进行分类和回归,并计算多任务损失

(4)RRoI池化层将RRPN获取的任意方向文本框投影到特征影像

(5)利用全连接层进行分类(文本or背景)

2. 旋转边界框的表示法

(1)5个元素的元组(x,y,w,h,θ):h为短边,w为长边,θ为x轴正方向与长边所形成的角度,θ保持在【论文】RRPN:Arbitrary-Oriented Scene Text Detection范围内。

(2)这种表示法的优点有:①容易计算两个不同旋转框的角度差;②对于每个旋转框的角回归的旋转友好表示;③与八个坐标点的表示法相比,该方法容易计算。

3. 旋转 anchors(R-anchors)

(1)首先增加一个参数控制候选框的旋转角度(6个值)

(2)改变原anchors的长宽比(2,5,8),保留了(8,16,32)的尺寸

【论文】RRPN:Arbitrary-Oriented Scene Text Detection

(3)对于特征图上的每个点,都会生成54个R-anchors(6个方向,3种尺度,3种长宽比),回归输出270个值(54×5),分类输出108个值(54×2)。整张特征图会生成54×H×W个R-anchors。

4. 旋转候选框的学习

(1)计算真实框与R-anchors之间的IoU后,筛选正负样本

  • 正样本(R-anchors):①与每个真实框具有最大的IoU或IoU大于0.7;②与真实框的交角小于12/Π。
  • 负样本(R-anchors):①IoU小于0.3;②IoU大于0.7,但是交角大于12/Π。
  • 其余不参与训练。

(2)多任务损失函数的计算

【论文】RRPN:Arbitrary-Oriented Scene Text Detection

【论文】RRPN:Arbitrary-Oriented Scene Text Detection

l是label(文本l=1,背景l=0),p=(p0,p1)为softmax计算的概率值,v(5个元素值)为文本标签的预测值,v*(5个元素值)为地面真实值,λ为平衡因子

【论文】RRPN:Arbitrary-Oriented Scene Text Detection

 

5. 候选框的优化

(1)倾斜IoU的计算

【论文】RRPN:Arbitrary-Oriented Scene Text Detection

【论文】RRPN:Arbitrary-Oriented Scene Text Detection

 

(2)倾斜NMS的应用原则:①最大IoU大于0.7的候选框被保留;②如果所有候选框的IoU都在[0.3,0.7],保留与每个地面真实框具有最小角度差(需小于12/Π)的候选框。

6. RRoI 池化层

(1)将w×h大小的区域池化到Hr×Wr的区域,每个区域的旋转角都与候选框是一致的

(2)对每个子区域的四个角坐标进行相似性变换(旋转,平移,缩放),并分组表示子区域的边界。最后采用最大池化对每个区域进行处理。

【论文】RRPN:Arbitrary-Oriented Scene Text Detection

三、实验设置

(1)实验设置:去除超过图像边界的R-anchors

(2)ablation study (相当于控制变量):在300张影像的小数据集上进行实验

  • 分析出基准研究存在的问题:①复杂场景;②小尺寸的文本;③长文本,这三类难以被精确检测

(3)文本区域的背景:保留倾斜框的中心和角度,并将其长宽扩大到1.X倍

(4)增大训练数据集:加入其他数据集中的400张影像,将数据集扩展到700张

(5)边界填充(border padding):在增加文本区域背景信息的同时,会使部分倾斜框超过边界,因此对长宽分别设置了0.25倍的边界填充

(6)尺度抖动(scale jittering):对输入图像的长边进行随机尺寸的缩放

上一篇:哈工大计算机系统大作业 程序人生-Hello‘s P2P


下一篇:qml 音乐播放器