基于早期深度学习的方法(Huang et al.,2014;Tian et al.,2015;Yao et al.,2016;Zhang et al.,2016;He et al.,2017a)将文本检测任务分为多个步骤。他们使用卷积神经网络(CNNs)来预测局部片段,然后应用启发式后处理步骤将片段合并到检测线中。
在早期的尝试中(Huang等人,2014年),CNN只用于将局部图像patch分类为文本类和非文本类。 使用MSER特性来分离的图像patch。 然后将正patch合并到文本行中。
之后,CNN以完全卷积的方式应用于整个图像。TextFlow(Tian等人,2015)使用CNNs检测字符,并将字符分组任务视为最小成本流问题。
在(Yao et al.,2016)中,卷积神经网络用于预测输入图像中的每个像素(1)是否属于字符,(2)是否在区域内,以及(3)是否在区域周围的文本方向像素。正样本且链接被认为是检测到的字符或文本区域。对于属于同一文本区域的字符,应用Delaunay三角剖分(Kanget al.,2014),然后根据预测的方向属性将字符分组为文本行。
同样,Zhang等人。 (2016年)首先预测显示文本行区域的分割图。 对于每个文本行区域,应用MSER(Neumann和Matas,2012)提取字符候选。 字符候选显示关于底层文本行的规模和方向的信息。 最后,提取最小包围框作为最终文本行候选。
(2017a)提出了一个检测过程,该过程也包括几个步骤。 首先,提取文本块。 然后,模型裁剪,只关注提取的文本块来提取文本中心线(TCL),它被定义为原始文本行的收缩版本。 每个文本行表示一个文本实例的存在。 然后将提取的TCLmap分割成几个TCLs。 然后将每个拆分的TCL连接到原始图像。 然后,语义分割模型将每个像素分类为与给定的TCL属于同一文本实例的像素,而不是不属于该文本实例的像素。
总的来说,在这个阶段,场景文本检测算法缓慢且复杂,尽管它们已经用基于学习的特性取代了一些手工制作的特性。 设计方法是自下而上的,基于关键组件,如单个字符和文本中心线。
3.1.2
后来,研究人员从迅速发展的一般物体检测算法中汲取灵感(Liu等人,2016a;Fu等人,2017年;Girshick等人,2014年;Girshick,2015年;Ren等人,2015年;He等人,2017b)。 在这一阶段,场景文本检测算法是通过修改一般检测器的区域建议和边界框回归模块来直接定位文本实例(Dai等人,2017年;He等人,2017年c;Jiang等人,2017年;Liao等人,2017年;Liu等人,2017年;Ma等人,2017年;Li等人,2017年b;Liu等人,2018年b;Zhang等人,2018年),如图所示4. 它们主要由堆叠的卷积层组成,将输入图像编码成特征映射。 特征图上的每个空间位置对应于输入图像的一个区域。 然后将特征映射输入分类器,以预测文本实例在每个这样的空间位置的存在和定位。
这些方法大大减少了管道到端可训练神经网络组件,使训练更容易,推理更快。 我们在这里介绍最有代表性的作品。
受一阶对象检测器的启发,textBox(廖等人,2017年)adaptSSD(Liu等人,2016年a),通过将默认框定义为具有不同方面比规格的四边形来适应文本的不同方向和方面比例。
EAST(周等人,2017年)进一步简化了基于锚的检测,采用了U形设计(Ronneberger等人,2015年),以整合不同层次的特征。 输入图像被编码为一个多通道特征映射,而不是SSD中不同空间大小的多层。 每个空间位置的特征用于直接回归底层文本实例的矩形或四边形包围框。 具体来说即 文本/非文本和几何图形,例如。 预测矩形的方向和大小,以及四边形的顶点坐标。 EAST以其高度简化的流水线和高效的实时速度进行推理,使文本检测领域有所不同。
其他方法调整了R-CNN的两阶段目标检测框架(Girshick等人,2014年;Girshick,2015年;Ren等人,2015年),其中第二阶段根据(ROI)获得的矫正特征定位结果。
在(Ma等人,2017年)中,旋转区域提案网络被调整以生成旋转区域提案,以适应任意方向的文本,而不是轴对齐矩形。
在FEN(Zhang等人,2018年)中,使用了不同大小的ROI池的加权和。 最后的预测是通过利用4种不同大小的池的文本性评分来进行的。
Zhang等人。 (2019)建议递归执行ROI和本地化分支,以修改文本实例的预测位置。 它是一个很好的方法来包含边界框的特征,它比区域提案网络(RPN)更好地定位文本)。
Wang等人。 (2018)建议使用一个参数化实例转换网络(ITN),该网络学习预测适当的仿射转换,以在基本网络提取的最后一个特征层上执行,以纠正定向文本实例。 他们的方法,与ITN,可以训练端到端。
为了适应不规则形状的文本,提出了多达14个顶点的包围多边形(Liu等人,2017年),然后是Bi-LSTM(Hochreiter和Schmidhuber,1997)层,以细化预测顶点的坐标。
以类似的方式,Wang等人。 (2019b)建议使用递归神经网络(RNNs)读取基于RPN的两阶段对象解码器编码的特征,并预测可变长度的边界多边形。 该方法不需要后处理或复杂的中间步骤,并实现了更快的速度10.0FPS的总文本。
这一阶段的主要贡献是检测管道的简化和后续效率的提高。 然而,由于接收场的限制,面对一阶方法的弯曲、定向或长文本时,性能仍然是有限的,而两阶方法的效率是有限的。
3.1.3
文本检测与一般对象检测的主要区别在于文本整体是同质的,并以其局部性为特征,不同于一般对象检测。 通过同质性和局部性,我们指的是文本实例的任何部分仍然是文本的属性。 人类不必看到整个文本实例才能知道它属于某些文本。
这种属性为文本检测方法的一个新分支奠定了基石,该分支只预测子文本组件,然后将它们组装成文本实例。 这些方法从本质上来说,可以更好地适应上述弯曲、长和定向文本的挑战。 这些方法,如图所示。 使用神经网络预测局部属性或段,以及重新构造文本实例的后处理步骤。 与早期的多阶段方法相比,它们更依赖于神经网络,管道更短。
在像素级方法(Deng等人,2018年;Wu和Natarajan,2017年)中,端到端完全卷积神经网络学习生成一个密集的预测映射,指示原始图像中的每个像素是否属于任何文本实例。 然后根据哪些像素属于同一文本实例将像素分组在一起。 基本上,它们可以看作是实例分割的特例(He等人,2017b)。 由于文本可以出现在使预测的像素相互连接的集群中,像素级方法的核心是将文本实例彼此分离。
像素链接(Deng等人,2018年)通过添加额外的输出通道来指示相邻像素之间的链接,学会预测两个相邻像素是否属于同一个文本实例。
边界学习方法(Wu和Natarajan,2017)将每个像素转换为三类:文本、边界和背景,假设边界可以很好地分离文本实例
在(Wang等人,2017年)中,像素根据其颜色一致性和边缘信息进行聚类。 融合后的图像段称为超像素。 这些超像素被进一步用于提取字符和预测文本实例。
在分割框架上,田等人。 (2019)建议添加一个损失项,使属于不同文本实例的像素嵌入向量之间的欧氏距离最大化,并将属于同一实例的像素嵌入向量最小化,以更好地分离相邻文本。
Wang等人。 (2019a)建议在不同收缩尺度下预测文本区域,并将检测到的文本区域逐圈放大,直到与其他实例发生碰撞。 然而,不同尺度的预测本身就是上述边界学习的变化(Wu和Natarajan,2017)。
组件级方法通常以中等粒度预测。 组件是指文本实例的局部区域,有时会重叠一个或多个字符。
具有代表性的组件级方法是连接性文本提议网络(CTPN)(Tian等人,2016)。CTPN模型继承了锚定和递归神经网络用于序列标记的思想。他们把RNN堆在CNN上。最终特征图中的每个位置都表示由相应锚定指定的区域中的特征。假设文本水平显示,每一行特征都被输入到RNN中,并标记为文本/非文本。还预测了诸如管段尺寸等几何图形。CTPN是第一个用深度神经网络预测和连接场景文本片段的方法。
Selink(Shi等人,2017a)通过考虑节段之间的多导向联动来扩展CTPN。 段的检测基于SSD(Liu等人,2016a),其中每个默认框表示一个文本段。 预测默认框之间的链接,以指示相邻段是否属于同一文本实例。 Zhang等人。 (2020年)通过使用图形卷积网络(Kipf和Welling,2016年)进一步改进Seg链路,以预测段之间的联系。
角定位方法(Lyu等人,2018b)建议检测每个文本实例的四个角。 由于每个文本实例只有4个角,预测结果及其相对位置可以指示哪些角应该分组到同一个文本实例中。
Long等人。 (2018)认为文本可以表示为沿文本中心线(TCL)的一系列滑动圆盘,这与文本实例的运行方向一致,如图所示。 6. 通过新的表示,他们提出了一个新的模型TextSnake,它学习预测局部属性,包括TCL/非TCL、文本区域/非文本区域、半径和方向。 将TCL像素与文本区域像素的交集给出了像素级TCL的最终预测。 然后使用局部几何图形以有序点列表的形式提取TCL。 用TCL和半径重建文本线。 它在几个弯曲文本数据集以及更广泛使用的数据集上实现了最先进的性能,例如。 ICDAR2015(Karatzas等人,2015年)和MSRA-TD500(Tu等人,2012年)。 值得注意的是,Long等人。提出了一个跨不同数据集的交叉验证测试,其中模型只在具有直文本实例的数据集上进行微调,并在曲面数据集上进行测试。 在所有现有的弯曲数据集中,文本蛇比F1-Score中的其他基线提高了20。
字符级表示是另一种有效的方法。 Baek等人。 (2019b)建议学习字符中心的分割图和它们之间的链接。 组件和链接都是以高斯热图的形式预测的。 然而,这种方法需要迭代弱监督,因为现实世界的数据集很少配备字符级标签。
总的来说,基于子文本组件的检测比文本实例的形状和纵横比具有更好的灵活性和泛化能力。 主要缺点是用于将段分组为文本实例的模块或后处理步骤可能容易受到噪声的影响,并且这一步骤的效率高度依赖于实际实现,因此可能在不同的平台之间有所不同。