Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

Attention OCR 历史意义: 开创了基于attention机制建模OCR问题的先河。

本文主要结构如下:

一、Abstract

       介绍提出attention-based OCR模型的优势

1. 论文提出基于attention模型取得更高的准确率

2. 模型结构简单,通用性更高

3.充足的实验给出有效结论

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

二、Introduction

       介绍当前OCR领域研究的主流方法,分别有不同的缺点,文末提出模型优点及创新

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

三、The Proposed Network Architecture

       提出OCR模型分模块介绍,包括CNN layer、RNN layer、Spatial attention layer、多视点操作、训练

模型主要结构如图1所示: 首先经过一个CNN layer提取图像特征,然后通过attention特征输入到RNN中

CNN layer: 本文采取三种CNN模型,主要有inception-v2、inception-v3以及inception-resnet-v2, 图像模型提取后的特征用fijc来表示,i,j表示图像上的位置,c表示channel的索引

RNN layer: 

     1. Ut,c 表示at权重值和图片的特征值对应相乘加和

     2. t时刻RNN模型的输入xt表示t-1时刻字符的one-hot索引值 与 参数矩阵 对应相乘 ➕ t-1时刻的Ut-1,c与 参数矩阵的乘积(下面公式2)

      3. RNN模型的输入: xt 以及RNN模型t-1时刻的输出

      4. RNN模型的输出: Ot, St

      5. 将Ot和Ut乘参数矩阵通过一个softmax得到Ot', 最后获取每个字符的概率值,值最大的表示label

Spatial attention: 主要是将channel的i和j位置向量onehot加入到输入tanh函数中(local aware attention)

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

四、Dataset

        主要介绍两种数据集-FSNS Dataset、Google Street View 

五、Experiment

        统领全文、再次重申提出的attention模型优势,实验结果表明使用location aware attention可以提升9个百分点,并且证明了特征提取网络深度对准确率的影响,最后进行错误分析以及可视化展示

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

六、Conclusion

        结论及展望

Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

 关键点: 

        1. 特征提取: CNN

        2. 语言模型: RNN

        3. 自回归: Attention

创新点:

        1. 基于Attention机制实现OCR模型

        2. 模型自回归

其发点:

        对于图像特征提取而言,网络深度不是越深越好,过于深反而会引入噪音

七、Code

      https://github.com/tensorflow/models/tree/master/research/attention_ocr

上一篇:Modbus 通讯协议


下一篇:AD设计中地铜突然消失且无法选中删除的解决办法