摘要
BLSTM解码时,解码器需要等待整个音频到达后才开始解码,因为时间反方向的前向传播需要末尾的历史信息。BLSTM这一延时问题使其不适用与实时语音识别。context-sensitive-chunk BLSTM(CSC-LSTM)和latency-controlled BLSTM(LC-BLSTM,延时控制-双向LSTM)都将整句切分为数个chunks。通过在每个chunk中添加左右上下文帧,并以chunk为单位进行前向计算,BLSTM的延迟可以控制为一个chunk左右的时长,并且与传统BLSTM相比,可以保持原有准确率基本不变。文本提出了两种LC-BLSTM。通过使用不同类型的神经网络拓扑以初始化BLSTM的cell状态;通过上下文帧和快速在线识别以降低计算开销。320h Swbd实验显示本文的解码速度能加速24%至61%而无识别率的损失。
2.3. CSC-BLSTM and LC-BLSTM
在时间反向计算中,LC-BLSTM只使用修剪过的下文信息用作cell状态的初始化。
LC-BLSTM Without Forward approximation
LC-BLSTM-FA(With Forward approximation)
LC-BLSTM-FA去除了上述无用的计算
3. IMPROVED LC-BLSTM ACOUSTIC MODELS
本节介绍两种效率改进的LC-BLSTM,用于快速实时在线语音识别
3.1. Forward approximation and backward DNN initialization
每个BLSTM层的前向计算步可以分解为:
时间正向:
时间反向:
3.2. Forward approximation and backward simple RNN
第二种结构被称为"forward approximation and back-
SRNN的训练需要处理长程依赖,因此容易发生梯度爆炸。为此在LC-BLSTM-FABSR的训练中,需要使用更为严格的梯度修剪以促进收敛。
实验表明,LC-BLSTM-FA的WER优于LC-BLSTM-FABDI、LC-BLSTM-FABSR,但LC-BLSTM-FABDI和LC-BLSTM-FABSR的解码速度比前者快。
参考文献
IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION
Shaofei Xue, Zhijie Yan, Alibaba Inc, China