LC-BLSTM及其改进

摘要

BLSTM解码时,解码器需要等待整个音频到达后才开始解码,因为时间反方向的前向传播需要末尾的历史信息。BLSTM这一延时问题使其不适用与实时语音识别。context-sensitive-chunk BLSTM(CSC-LSTM)和latency-controlled BLSTM(LC-BLSTM,延时控制-双向LSTM)都将整句切分为数个chunks。通过在每个chunk中添加左右上下文帧,并以chunk为单位进行前向计算,BLSTM的延迟可以控制为一个chunk左右的时长,并且与传统BLSTM相比,可以保持原有准确率基本不变。文本提出了两种LC-BLSTM。通过使用不同类型的神经网络拓扑以初始化BLSTM的cell状态;通过上下文帧和快速在线识别以降低计算开销。320h Swbd实验显示本文的解码速度能加速24%至61%而无识别率的损失。

   

2.3. CSC-BLSTM and LC-BLSTM

在时间反向计算中,LC-BLSTM只使用修剪过的下文信息用作cell状态的初始化。

   

LC-BLSTM及其改进

   

LC-BLSTM及其改进

LC-BLSTM及其改进

LC-BLSTM Without Forward approximation

LC-BLSTM及其改进

LC-BLSTM及其改进

   

LC-BLSTM-FA(With Forward approximation)

LC-BLSTM-FA去除了上述无用的计算

LC-BLSTM及其改进

   

3. IMPROVED LC-BLSTM ACOUSTIC MODELS

本节介绍两种效率改进的LC-BLSTM,用于快速实时在线语音识别

3.1. Forward approximation and backward DNN initialization

LC-BLSTM及其改进

LC-BLSTM及其改进

每个BLSTM层的前向计算步可以分解为:

时间正向:

LC-BLSTM及其改进

时间反向:

LC-BLSTM及其改进

LC-BLSTM及其改进

   

LC-BLSTM及其改进

   

LC-BLSTM及其改进

   

3.2. Forward approximation and backward simple RNN

LC-BLSTM及其改进

LC-BLSTM及其改进

第二种结构被称为"forward approximation and back-

LC-BLSTM及其改进

SRNN的训练需要处理长程依赖,因此容易发生梯度爆炸。为此在LC-BLSTM-FABSR的训练中,需要使用更为严格的梯度修剪以促进收敛。

实验表明,LC-BLSTM-FA的WER优于LC-BLSTM-FABDI、LC-BLSTM-FABSR,但LC-BLSTM-FABDI和LC-BLSTM-FABSR的解码速度比前者快。

参考文献

Yu Zhang, Guoguo Chen, Dong Yu, and Kaisheng Yao, "High- way long short-term memory RNNs for distant speech recog- nition," in IEEE International Conference of Acoustics,Speech and Signal Processing (ICASSP), 2016, pp. 5755–5759.

IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION

Shaofei Xue, Zhijie Yan, Alibaba Inc, China

上一篇:HTML-音视频


下一篇:墨天轮openGauss免费在线SQL测试虚拟机