《Gradient-based learning applied to document recognition》翻译

2024-03-29 18:22:04

1 引言
2 用于孤立字符识别的卷积神经网络
3 结果与其他方法的比较
4 多模块系统和图变换网络
5 多目标识别： HOS
6 图变换网络的全局训练
7 多对象识别：空间位移神经网络(SDNN)
8 图变换网络和传感器
9 在线手写识别系统
10 支票阅读系统
11 结论

G r a d i e n t − b a s e d l e a r n i n g a p p l i e d t o d o c u m e n t r e c o g n i t i o n Gradient-based\ _{}learning\ _{}applied\ _{}to\ _{}document\ _{}recognition Gradient−based learning applied to document recognition

Y a n n L e C u n ， L e o n B o t t o n ， Y o s h u a B e n g i o ， a n d P a t r i c k H a f f n e r Yann\ _{}LeCun，Leon\ _{}Botton， Yoshua\ _{}Bengio，and\ _{}Patrick \ _{}Haffner Yann LeCun，Leon Botton，Yoshua Bengio，and Patrick Haffner

基于梯度的学习在文档识别中的应用基于梯度的学习在文档识别中的应用基于梯度的学习在文档识别中的应用

摘要：用反向传播算法训练的多层神经网络建立了一个成功的基于梯度的学习技术的最佳例子。给定适当的网络体系架构，可以使用基于梯度的学习算法来合成复杂的决策面，该决策面可以以最少的预处理对高维模式（例如手写字符）进行分类。本文回顾了应用于手写字符识别的各种方法，并将它们与标准的手写数字识别任务进行了比较。专门设计用于处理二维 (2-D) 形状的可变性的卷积神经网络被证明性能优于所有其他技术。
现实生活中的文档识别系统由多个模块组成，包括字段提取，分割，识别和语言建模。一种称为图变换网络（GTN）的新的学习范式，允许使用基于梯度的方法对此类多模块系统进行全局训练，从而最大程度地降低总体性能指标。
文中描述了两种用于在线手写识别的系统，实验证明了进行全局训练的优势以及图变换网络的灵活性。
文中还描述了用于读取银行支票的图变换网络，其使用卷积神经网络字符识别器与全局训练技术相结合，以提供商务和个人支票记录的准确性。现已进行商业部署，每天读取数百万张支票。
关键词：卷积神经网络，文档识别，有穷状态转换器，基于梯度的学习，图变换网络，机器学习，神经网络，光学字符识别（OCR）

1 引言

A.从数据中学习（Learning from Data）
B.基于梯度的学习（Gradient-Based Learning）
C.梯度反向传播（Gradient Back Propagation）
D.在实际手写识别系统中学习（Learning in Real Handwriting Recognition Systems）
E.全局训练系统（Globally Trainable Systems）

2 用于孤立字符识别的卷积神经网络

A.卷积网络（Convolutional Networks）
卷积网络（CNN）通过三种结构来确保移位、尺度和旋转不变：局部感受野(local receptive fields)、权值共享(shared weights)和时间或空间下采样(sub-sampling)。
B. LeNet-5
图2 LeNet-5（卷积神经网络）的体系架构，这里用于数字识别。每个平面都是一个特征映射，即一组权重被限制为相同的单位。

LeNet-5共有7层，不包含输入，每层都包含可训练参数（连接权重）。输入图像为32 * 32大小，这要比数据集中最大的字符要大得多（最多20 * 20个像素位于28 * 28的中心区域）。
C1层是一个卷积层，由6个特征图Feature Map构成。有156个可训练参数（每个滤波器5 * 5=25个unit参数和一个bias参数，一共6个滤波器，共(5 * 5+1) * 6=156个参数），共122,304个连接（26 * 28 * 28 * 6，每个神经元对应26个连接，每个feature map有28 * 28个unit，一共有6个feature map）。
S2层是一个下采样层，有6个14 * 14的特征图，特征图中的每个单元与C1中相对应特征图的2 * 2邻域相连接，输入到激活函数时它们共用一个系数加一个偏置，所需的训练参数为(1+1)* 6=12个，连接参数为(4+1)* 6 * 14 * 14=5880个。
C3层是一个有16个特征图的卷积层，每个特征图对S2中的特征图并非是全连接的。共有(25 * 3+1)* 6+(25 * 4)* 9+(25 * 6+1)=1516个训练参数，连接个数为1516 * 10 * 10=151600个。
S4同样为下采样层，有16 * (1+1)=32个训练参数，有(2 * 2+1) * 25 * 16=2000个连接。
C5层是一个卷积层，有120个特征图。每个单元与S4层的全部16个特征图的5* 5领域相连。由于S4层特征图的大小也为5 * 5（同滤波器一样），故C5特征图的大小为1 * 1，这构成了S4和C5之间的全连接。之所以仍将C5标示为卷积层而非全连接层，是因为如果LeNet-5的输入变大，而其他的保持不变，那么此时特征图的维数就会比1 * 1大。C5层有48120个可训练连接((5 * 5 * 16 + 1) * 120)。43
F6层有84个单元（之所以选这个数字的原因来自于输出层的设计，下面会有说明），与C5层全相连。有10164个可训练参数。

C.损失函数（Loss Function）

3 结果与其他方法的比较

A.数据库：修改后的NIST集（Database: The Modified NIST Set）
B.结果（Results）
C.与其他分类器的比较（Comparison with Other Classifiers）
1）线性分类器和成对线性分类器（Linear Classifier and Pairwise Linear Classifier）
2）基线最近邻分类器（Baseline Nearest Neighbor Classifier）
3）PCA和多项式分类器（PCA and Polynomial Classifier）
4）RBF网络（RBF Network）
5）一个隐藏层的全连接多层神经网络（One-Hidden-Layer Fully Connected Multilayer NN）
6）两个隐藏层的全连接多层神经网络（Two-Hidden-Layer Fully Connected Multilayer NN）
7）小型卷积网络——LeNet-1（A Small Convolutional Network—LeNet-1）
8）LeNet-4
9）Boosted LeNet-4
10）切线距离分类器（Tangent Distance Classifier）
11）支持向量机（SVM）
D.讨论（Discussion）
E.不变性和抗噪性（Invariance and Noise Resistance）

4 多模块系统和图变换网络

A.面向对象的方法（An Object-Oriented Approach）
B.特殊模块（Special Modules）
C.图变换网络（GTN’s）

5 多目标识别： HOS

A.细分图（Segmentation Graph）
B.识别变换和维特比变换（Recognition Transformer and Viterbi Transformer）

6 图变换网络的全局训练

A.维特比训练（Viterbi Training）
B.区分性维特比训练（Discriminative Viterbi Training）
C.前向得分和前向训练（Forward Scoring and Forward Training）
D.区分性前向训练（Discriminative Forward Training）
E.关于分辨训练的（Remarks on Discriminative Training）

7 多对象识别：空间位移神经网络(SDNN)

A.用GTN解释SDNN的输出（Interpreting the Output of an SDNN with a GTN）
B. SDNN实验（Experiments with SDNN）
C.SDNN的全局训练（Global Training of SDNN）
D.使用SDNN进行目标检测和定位（Object Detection and Spotting with SDNN）

8 图变换网络和传感器

A.以前的工作（Previous Work）
B.标准转换（Standard Transduction）
C.广义转换（Generalized Transduction）
D.关于图结构的说明（Notes on the Graph Structures）
E. 图变换网络（GTN）和隐马尔科夫模型（HMM）

9 在线手写识别系统

A.预处理（Preprocessing）
B.网络架构（Network Architecture）
C.网络训练（Network Training）
D.实验结果（Experimental Results）

10 支票阅读系统

A.支票金额识别的图变换网络（A GTN for Check Amount Recognition）
1) The Field Location Transformer
2) The Segmentation Transformer
3) The Recognition Transformer
4) The Composition Transformer
5) The Viterbi Transformer
B.基于梯度的学习（Gradient-Based Learning）
C.拒绝低置信度检查（Rejecting Low Confidence Checks）
D.结果（Results）

11 结论

在自动模式识别的短暂的历史中，增加学习的作用似乎总是会改善识别系统的整体性能。本文描述的系统更加证明了这一事实。卷积神经网络已被证明可以消除对手工特征提取器的需求。事实证明，GTN可以减少文档识别系统中对手工启发法、手动标记和手动参数调整的需求。随着训练数据的丰富、计算机速度的提高以及我们对学习算法理解的提高，识别系统将越来越依赖于学习，其性能也将得到改善。
正如反向传播算法很好地解决了多层神经网络中的信用分配问题一样，本文介绍的基于梯度的GTN学习程序也解决了系统中功能分配随每个新输入动态变化的信用分配问题。从某种意义上讲，这里介绍的学习算法仅是复杂、动态体系结构中梯度下降的不寻常形式，并具有高效的反向传播算法来计算梯度。本文的结果有助于建立基于梯度的最小化方法作为在大型系统中学习的一般组织原则的有用性和相关性。
结果表明，文档分析系统的所有步骤都可以表述为GT通过其可以反向传播梯度。即使在系统的不可训练部分中，图变换方面的设计理念也将特定领域的启发法（例如分割启发法）与通用的过程知识（广义转换算法）之间的界限清晰地分开了。
值得指出的是，并未要求使用数据生成模型（例如HMM）和极大似然原理来证明本文所述的大多数结构和训练准则的合理性。应用于全局判别损失函数的基于梯度的学习可确保实现最佳的分类和拒绝，而无需使用“难以证明”的原则，这些原则对系统架构施加了强大的约束，通常会以牺牲性能为代价。
更具体地说，本文介绍的方法和结构提供了针对模式识别系统中遇到的数量多的问题的通用解决方案。
1）传统上，特征提取是固定变换，通常是从有关任务的一些专家的先验知识中得出的。这依赖于可能的错误假设，即人工设计人员能够捕获输入中的所有相关信息。我们已经证明，将基于梯度的学习应用于卷积神经网络可以使我们从样本中学习适当的特征。在NIST数据库上广泛的比较数字识别实验证明了这种方法的成功。
2）图像中目标的分割和识别无法完全解耦。与其过早做出艰难的分割决策，我们已经使用HOS并行生成和评估大量假设，将任何决策推迟到总体标准最小化为止。
3）手工绘制图像以获得用于训练字符识别器的分段字符是昂贵的，并且没有考虑识别整个文档或字符序列的方式（尤其是某些分割候选可能甚至是错误的，甚至尽管它们看起来像真实的字符）。取而代之的是，我们训练多模块系统来优化性能的全局度量，这不需要耗时的详细操作，并且由于允许训练这些模块以实现共同的目标而获得了明显更好的识别性能。
4）分割、字符识别和语言模型中固有的歧义应进行最佳集成。我们没有使用一系列依赖于任务的启发法来组合这些信息源，而是提出了一个统一的框架，在该框架中，将广义转换方法应用于表示关于输入的一组假设加权的图形。商业部署的支票读取系统每天可读取数百万笔业务和个人支票，证明了这种方法的成功：广义转换引擎仅在几百行代码中。
5）传统的识别系统依靠许多手工制作的启发法来隔离可单独识别的目标。有前景的SDNN方法利用卷积神经网络的鲁棒性和效率来完全避免显式分割。可以使用基于梯度的学习方法同时实现分割和识别的自动学习。
本文介绍了少l量样本的GT模块，但是很明显，该概念可以应用于许多领域，其中领域知识或状态信息可以用图表示。在许多音频信号识别任务和视觉场景分析应用中就是这种情况。未来的工作将尝试将GT网络应用于此类问题，希望允许更多的依赖自动学习，而较少的依赖细节工程。

码农公寓