Attention OCR 历史意义: 开创了基于attention机制建模OCR问题的先河。
本文主要结构如下:
一、Abstract
介绍提出attention-based OCR模型的优势
1. 论文提出基于attention模型取得更高的准确率
2. 模型结构简单,通用性更高
3.充足的实验给出有效结论
二、Introduction
介绍当前OCR领域研究的主流方法,分别有不同的缺点,文末提出模型优点及创新
三、The Proposed Network Architecture
提出OCR模型分模块介绍,包括CNN layer、RNN layer、Spatial attention layer、多视点操作、训练
模型主要结构如图1所示: 首先经过一个CNN layer提取图像特征,然后通过attention特征输入到RNN中
CNN layer: 本文采取三种CNN模型,主要有inception-v2、inception-v3以及inception-resnet-v2, 图像模型提取后的特征用fijc来表示,i,j表示图像上的位置,c表示channel的索引
RNN layer:
1. Ut,c 表示at权重值和图片的特征值对应相乘加和
2. t时刻RNN模型的输入xt表示t-1时刻字符的one-hot索引值 与 参数矩阵 对应相乘 ➕ t-1时刻的Ut-1,c与 参数矩阵的乘积(下面公式2)
3. RNN模型的输入: xt 以及RNN模型t-1时刻的输出
4. RNN模型的输出: Ot, St
5. 将Ot和Ut乘参数矩阵通过一个softmax得到Ot', 最后获取每个字符的概率值,值最大的表示label
Spatial attention: 主要是将channel的i和j位置向量onehot加入到输入tanh函数中(local aware attention)
四、Dataset
主要介绍两种数据集-FSNS Dataset、Google Street View
五、Experiment
统领全文、再次重申提出的attention模型优势,实验结果表明使用location aware attention可以提升9个百分点,并且证明了特征提取网络深度对准确率的影响,最后进行错误分析以及可视化展示
六、Conclusion
结论及展望
关键点:
1. 特征提取: CNN
2. 语言模型: RNN
3. 自回归: Attention
创新点:
1. 基于Attention机制实现OCR模型
2. 模型自回归
其发点:
对于图像特征提取而言,网络深度不是越深越好,过于深反而会引入噪音
七、Code
https://github.com/tensorflow/models/tree/master/research/attention_ocr