Attention-OCR(Attention-based Extraction of Structured Information from Street View Imagery)

2024-01-24 17:39:28

Attention OCR 历史意义: 开创了基于attention机制建模OCR问题的先河。

本文主要结构如下:

一、Abstract

介绍提出attention-based OCR模型的优势

1. 论文提出基于attention模型取得更高的准确率

2. 模型结构简单，通用性更高

3.充足的实验给出有效结论

介绍当前OCR领域研究的主流方法，分别有不同的缺点，文末提出模型优点及创新

提出OCR模型分模块介绍，包括CNN layer、RNN layer、Spatial attention layer、多视点操作、训练

模型主要结构如图1所示: 首先经过一个CNN layer提取图像特征，然后通过attention特征输入到RNN中

CNN layer: 本文采取三种CNN模型，主要有inception-v2、inception-v3以及inception-resnet-v2, 图像模型提取后的特征用fijc来表示，i,j表示图像上的位置，c表示channel的索引

RNN layer:

1. Ut,c 表示at权重值和图片的特征值对应相乘加和

2. t时刻RNN模型的输入xt表示t-1时刻字符的one-hot索引值与参数矩阵对应相乘 ➕ t-1时刻的Ut-1,c与参数矩阵的乘积(下面公式2)

3. RNN模型的输入: xt 以及RNN模型t-1时刻的输出

4. RNN模型的输出: Ot, St

5. 将Ot和Ut乘参数矩阵通过一个softmax得到Ot', 最后获取每个字符的概率值，值最大的表示label

Spatial attention: 主要是将channel的i和j位置向量onehot加入到输入tanh函数中(local aware attention)

主要介绍两种数据集-FSNS Dataset、Google Street View

统领全文、再次重申提出的attention模型优势，实验结果表明使用location aware attention可以提升9个百分点，并且证明了特征提取网络深度对准确率的影响，最后进行错误分析以及可视化展示

结论及展望

关键点:

1. 特征提取: CNN

2. 语言模型: RNN

3. 自回归: Attention

创新点:

1. 基于Attention机制实现OCR模型

2. 模型自回归

其发点:

对于图像特征提取而言，网络深度不是越深越好，过于深反而会引入噪音