小米加入 AI 研究大家庭！联合西工大推出基于注意力机制的普通话语音识别算法

2021-08-06 10:34:45

雷锋网(公众号：雷锋网) AI 科技评论按：小米近期发布了自己的 AI 音箱，加入了智能家居的战局。正当我们觉得小米会不会只是蹭“人工智能”热点的时候，小米的这篇论文证明了自己真的是把人工智能作为一件严肃的公司业务来做。请允许我们代表人工智能研究大家庭对小米公司表示欢迎，对小米的研究员们致以敬意！

这篇论文是西北工业大学、陕西省语音与图像信息处理重点实验室与小米科技公司的研究员联合研究的成果。该项工作主要针对普通话识别任务，提出了一种基于注意力机制的端到端学习模型。

以下是雷锋网 AI 科技评论根据论文摘要进行的编译简介。

论文摘要

在最近，语言识别领域的研究越来越多地采用了端到端（End-to-End）学习模式。这种学习模式可以直接将输入的语音转录成相应的文本，而不需要使用到任何预定义的校准规则。据雷锋网 AI 科技评论了解，该论文中的研究员们在端到端学习模式基础上，探讨了一种基于注意力机制的编解码模型（Attention-based encoder-decoder model），而该模型主要针对普通话语音识别（Mandarin speech recognition）任务，并且取得了很不错的效果。

图一，上图展示了编码模型。该编码模型是一个BLSTM，它从输入x中提取出h。

在训练期间还使用了帧子采样（Frame sub-sampling）技术。在该项工作中，研究员通过跳帧（Skipping frames）的方式来缩小原序列的长度，并且正则化了权重以取得更好的泛化能力和收敛效果。除此之外，本项工作还探究了卷积注意力（Convoluional attention）和注意力平滑（Attention smoothing）这两种不同的注意力机制所产生的不同影响，以及模型的性能和波束搜索（Beam search）的宽度之间的关联性。

图二，上图展示了AttendAndSpell模型。该模型由MLP（注意力机制）和LSTM（解码模型）组成。在每一次时间步骤（time step）t，MLP将结合隐含状态s_t-1和输入h计算出上下文向量（context vector）c_t。从而生成新的隐含状态s_t和新的标签y_t。

最终，该论文所提出的算法，在MiTV数据集上，在没有使用任何词汇（Lexicon）或语言模型（Language model）的情况下，实现了仅为 3.58%的字符错误率（Character error rate, CER）以及7.43%的句子错误率（Sentence error rate, SER）。另外值得一提的，该模型在结合了三元语言模型（Trigram language model）之后，进一步取得了2.81%的字符错误率以及5.77%的句子错误率。相比另两种基于内容的注意力算法和卷积注意力算法，论文中提出的注意力平滑算法都取得了更好的表现。

论文中还表示，他们的下一步研究目标是把现有的技术和非常深的卷积网络结合，以期获得更好的表现。他们的后续成果我们拭目以待，我们期待小米进一步深化人工智能在自家产品中的应用，也希望更多国内企业都参与到人工智能相关技术的研究和应用中来。

Via Attention-Based End-to-End Speech Recognition in Mandarin

雷锋网 AI 科技评论编译。

本文作者：隔壁王大喵

本文转自雷锋网禁止二次转载，原文链接

码农公寓

论文摘要

相关文章