STR from Two-Dimensional Perspective AAAI2019

文章名:Scene Text Recognition from Two-Dimensional Perspective

motivation

  • seq-based 对于不规则文本的缺点,CRNN+CTC的算法是基于一维的,存在label和sequence无法对齐的问题。
  • 提出CAFCN和先前的seq-based方法相比,对于文本形状、背景噪声以及一阶段的检测不准确都不敏感。
  • 虽然本文提出的方法需要进行字符级别的标注,但是在合成的syntext数据集中本身就含有字符级别的类别,训练的时候不要仅使用合成的数据集,因此不需要额外的人工标注。
    STR from Two-Dimensional Perspective AAAI2019

method

CAFCN的整个网络结构由两部分组成(Character Attention FCN 和 word formation module)。Character Attention FCN(CA-FCN)做像素级的分类,word formation module将像素级的预测整合输出最终的字符序列。结构图如下图所示:
STR from Two-Dimensional Perspective AAAI2019

  • backbone:采用VGG16的网络结构,只保留卷积层。

  • character attention module:第二-五层卷积层的feature map输出,通过卷积输出对应二值图(前景和背景),作为attention map。接着,通过
    F o = F i ⊗ ( 1 + A ) F_o = F_i ⊗ (1+A) Fo​=Fi​⊗(1+A)
    实现attention 操作。注意,需要对每层的attention map进行监督,loss为:
    L a s = − 4 H s × W s ∑ i = 1 H s / 2 ∑ j = 1 W s / 2 ( ∑ c = 0 1 ( Y i , j = = c ) l o g ( e X i , j , c ∑ k = 0 1 e X i , j , k ) ) L^s_a = -\frac{4}{H_s \times W_s}\sum_{i=1}^{H_s/2}\sum_{j=1}^{W_s/2}(\sum_{c=0}^{1}(Y_{i,j}==c)log(\frac{e^{X_{i,j,c}}}{\sum_{k=0}^{1}e^{X_{i,j,k}}})) Las​=−Hs​×Ws​4​i=1∑Hs​/2​j=1∑Ws​/2​(c=0∑1​(Yi,j​==c)log(∑k=01​eXi,j,k​eXi,j,c​​))

  • Deformable Convolution:为字符预测提供更加灵活多变的receptive field

  • word formation moudle:该模块是将大小为 H / 2 × W / 2 × C H/2\times W/2\times C H/2×W/2×C的输出feature map进行后处理,输出单词序列。过程如下:
    STR from Two-Dimensional Perspective AAAI2019
    1、预测得到的feature map进行二值化。
    2、在二值化图中,计算每个区域的类别平均值,平均值最大的作为该区域的类别。
    3、从左到右进行排序。

上一篇:two 题解


下一篇:C Two Arrays(dp+前缀和/思维+组合数学)