文章名:Scene Text Recognition from Two-Dimensional Perspective
motivation
- seq-based 对于不规则文本的缺点,CRNN+CTC的算法是基于一维的,存在label和sequence无法对齐的问题。
- 提出CAFCN和先前的seq-based方法相比,对于文本形状、背景噪声以及一阶段的检测不准确都不敏感。
- 虽然本文提出的方法需要进行字符级别的标注,但是在合成的syntext数据集中本身就含有字符级别的类别,训练的时候不要仅使用合成的数据集,因此不需要额外的人工标注。
method
CAFCN的整个网络结构由两部分组成(Character Attention FCN 和 word formation module)。Character Attention FCN(CA-FCN)做像素级的分类,word formation module将像素级的预测整合输出最终的字符序列。结构图如下图所示:
-
backbone:采用VGG16的网络结构,只保留卷积层。
-
character attention module:第二-五层卷积层的feature map输出,通过卷积输出对应二值图(前景和背景),作为attention map。接着,通过
F o = F i ⊗ ( 1 + A ) F_o = F_i ⊗ (1+A) Fo=Fi⊗(1+A)
实现attention 操作。注意,需要对每层的attention map进行监督,loss为:
L a s = − 4 H s × W s ∑ i = 1 H s / 2 ∑ j = 1 W s / 2 ( ∑ c = 0 1 ( Y i , j = = c ) l o g ( e X i , j , c ∑ k = 0 1 e X i , j , k ) ) L^s_a = -\frac{4}{H_s \times W_s}\sum_{i=1}^{H_s/2}\sum_{j=1}^{W_s/2}(\sum_{c=0}^{1}(Y_{i,j}==c)log(\frac{e^{X_{i,j,c}}}{\sum_{k=0}^{1}e^{X_{i,j,k}}})) Las=−Hs×Ws4i=1∑Hs/2j=1∑Ws/2(c=0∑1(Yi,j==c)log(∑k=01eXi,j,keXi,j,c)) -
Deformable Convolution:为字符预测提供更加灵活多变的receptive field
-
word formation moudle:该模块是将大小为 H / 2 × W / 2 × C H/2\times W/2\times C H/2×W/2×C的输出feature map进行后处理,输出单词序列。过程如下:
1、预测得到的feature map进行二值化。
2、在二值化图中,计算每个区域的类别平均值,平均值最大的作为该区域的类别。
3、从左到右进行排序。