数据智能时代，语音交互将是第一爆发领域

2022-06-24 14:36:45

在云栖TechDay第十五期活动上，阿里云iDST总监初敏博士给大家带来了题为《数据智能时代的语音交互》的分享，初敏博士认为当今是一个数据驱动的智能时代，语音交互将是这个时代的第一爆发领域，将会形成新一轮入口之争。她主要从语音识别与合成、人机对话、应用案例分析三部分展开了此次分享。

下面是现场分享观点整理。

自从谷歌的Alphago战胜李世石后，人工智能在全世界范围内引起了高度关注。细看近年来备受热议的人工智能案例，实际上是机器学习特别是深度学习技术的发展和普及的结果。而今天的深度学习，跟三四十年前神经网络技术在原理上其实没有本质差别，最大的差异就是网络规模。以前大家只敢尝试一个隐含层，今天语音识别中常用的是7、8个隐层，甚至有人尝试一百多个隐层。以前一个隐层上也就放二三十个节点，今天可以放1024或2048个。我们之所以可以这么任性地增加网络规模，并不断构建出各种复杂的网络结构，一方面是计算能力的增强，另一方面是可以用来训练模型的数据规模的增加。因此可以说，近几年人工智能发展最主要是大数据驱动的机器学习技术的发展。

今天我们所做的学习，其实是在向数据学习；而今天看到的机器智能，大多数是从数据中学来的。因此，现在是一个数据驱动的智能时代。

图一阿里云数据智能图谱

阿里在这个方向上，做了大量的布局，比如文字识别、人脸识别、图象识别，特别在电商领域做很多图象的分析。

我们为什么称之智能语音呢？这是因为语音不仅仅局限语音识别本身，同时还包括对所得到的文字的真正理解，甚至进一步的交互，这样才具有真正的智能性，而并非传统的将语音转化为文字。语音在人工智能这个圈子里，可以说是最成熟、最接近应用的领域之一。随着移动互联网时代的到来，手机、智能家居等设备呈现小型化、无屏化的趋势，语音就成为了一个最方便的入口。因此，在这个正在到来的数据智能时代，我们认为语音交互将是第一爆发的领域，将会形成新一轮入口之争。

图二阿里巴巴丰富的应用场景

到目前为止，阿里对语音的研发大概只有一年多的时间。阿里本身具有很大的客服系统，每天都有几千个坐席用于电话服务，同时还保留通话录音。但是这些录音是无用的数据，因为没有人来听它，除了客服团队会对很小一部分进行服务质量的抽检调查。而客户为同一件事再打客服电话时，遇到一个新的服务人员，就又需要重复之前所讲过的事情，导致客户体验非常之差。

那么智能语音可在其中发挥怎样的作用呢？它能将这些录音转化为文字，再通过自然语言的处理加以应用。例如在“质检”场景中，从文字提取有用信息，检测每一通电话是否存在问题。以蚂蚁客服为例，原本30多人的质检团队只能抽检1%的通话。而使用语音智能质检系统后，只保留10+人的质检团队就做到了100%的质检。

语音识别与合成

上述讲的是目前人工智能整体的大背景，未来所谓的人工智能最核心的是数据驱动的人工智能。在整个过程中，不仅仅是一个算法、深度学习，其中最本质的是要用数据将其驱动起来，才能获得真正的智能。

我们目前所做的工作，主要集中在语音和人机交互两个方面，一部分是基础的语音识别、合成；另一部分是人机间的交互对话。首先介绍的是我们在语音识别方面的工作。

图三语音识别的基本原理

如果将语音识别系统看成一个黑箱过程的话，那么它的作用就是把语音转换为文字的过程。从大体的原理上来讲的话，语音识别解码器最大后验决策的过程，给出一个语音的特征序列X,找出后验概率最大的一个文本串W。实际实施的时候，通过贝叶斯公式的分解成为两个模型，一个是声学模型，它的功能就是评估你的发音是什么，比如是发的是 b/p/m/f，还是d/t/n/l。目前是使用深度神经网模型来完成；另一个是语言模型，这一部分则是评估哪一个文字串是更自然的语言。一般是用ngram模型，目前大家也在探索各种深度学习模型。另外还会用到发音词典这个资源。

其中获取声学模型和语言模型的过程称为模型训练过程。执行最大后验概率决策的过程成为语音识别解码过程。，

图四声学建模

人的发音实际上是声带振动，通过振动产生周期性的波；声道相当于一个截面积不断变化的管子，不同形状的管子具有不同的共振频率,我们称之为共振峰，共振峰不同所发出的音就不同。所谓的声学模型就是基于这类特征进行建模，比如说/a/和/i/的共振峰差异就很明显。最小的建模单位称之为音素（/a/、/i/、/u/、/z/、/c/、/sh/等）。在中文和英文中，最小单位是不同的，中文通常会大一些。

传统上比较流行的建模方式是采用马尔科夫链来描述一个音，包含不同的状态。但经过二三十年的发展，已经达到了尽头，每次优化的效果错误率下降仅仅相对8%-10%左右。在2011年，微软邓力、余栋等在大规模连续语音识别任务上成功的应用的DNN深度学习模型。它是把这个语谱图灌进去，在马尔科夫链的基础上，再用深度学习训练，可实现30%相对错误率的下降。在此基础上，语音识别就逐步变得可用起来，因此可以说深度学习最初的成功是在语音识别方面的，这是因为语音识别是一个非常好的封闭学习系统，学习目标是非常清楚的。

刚才所讲的是一个简单的DNN的模型。随着深度学习的发展，人们逐步在模型的拓扑结构上做文章。LSTM是一个RNN模型，通过设置门的开关有选择地实现记忆与遗忘。另外一种是BLSTM，其在进行当前判决时不仅考虑历史数据，还会等待后面的数据进来后一起用来做判决。所以准确率会大大提高，相比于DNN模型，又可以实现错误率25%左右的相对下降。但是它带来的问题是：因为要在收到右边的内容后才能完成现在的判决，在时间上，就会形成判决的延迟。因此我们目前做的是长度受限（LC）BLSTM，兼顾准确性和时效性。该模型计算复杂度比较高，应用的难度在于时效性。我们在这个方面做了很多优化工作，最终使得这个算法可以达到0.6倍的实时，并完成第一个工业界生产系统的部署。如今，这个系统已经成为阿里云云栖大会的标配（提供实时语音字幕）。

图五语言模型

关于语言模型，它本质就是描述句子出现的概率。通常符合人说话规律的句子的概率会高于随机词组组合而成的语句。过去流行的模型是n-gram模型，现在仍然是主流模型之一。但是目前的研究热点是RNN模型。从套路上讲，语音识别在过去的二三十年内并没有发生太大的变化。真正的变化在于深度学习本身。

图六数据规模和计算效率至关重要

在今天会议现场，大家可能注意到在我讲话的时候，可以实时产生滚动字幕,这就是我们的小Ai语音识别系统。小Ai的这项能力，今年3月首次在内部亮相，当时小Ai参加了阿里云年会，并当场跟中国速记第一人姜毅进行了PK。最终，小Ai以微弱优势胜出。

我们是春节前接到要在阿里云年会上进行人机PK的任务，包含春节假期一共不到一个月的准备时间。为了取得最好的效果，我们决定采用BLSTM模型，是深度学习中一个比较复杂但学习能力更强的模型。这个模型当时还在研发阶段。所以大家兵分两路：一路同学利用我们已经采集到的1万多小时手机语音，做各种实验，来确定模型的最佳结构和参数,这就意味在数十块GPU卡上，并行进行好几组实验。两三周的时间这个模型小组完成了几十组对比实验。与此同时，另一路同学在集团内外到处收集各种演讲数据，在网上收集关于云计算、大数据领域的各种新闻和文章。这些数据的目的是帮助小AI适应垂直领域演讲。

刚才讲的是语音识别大的框架，如果说难是非常难。因为必须把每一个细节都十分完美地解决，最后才能得到特别好的效果。但整体来看，并没有特别神奇的点，仅仅是在不同的深度学习的模型上进行调试，重要的地方就是迭代能力和数据量的大小。因此数据的采集和使用就变得尤为重要，所以机器学习远远不是只研究某个算法，对企业而言，真正好用的数据模型一定是经过大量的数据验证的。

对于语音合成的前端处理，之前比较流行的是用CRF算法来预测停顿边界和等级，现在大家更多的尝试使用机器学习来解决这个问题。声音合成部分目前存在两种方法,一种是参数合成；另一种是波形拼接合成。

人机对话

刚才所讲的是语音的识别与合成，但这相对于今天所说的智能语音而言是远远不够的，这是因为我们希望在识别过程中能够进行理解，可以进行人机对话、交互。

图七人机对话的发展趋势

从上图可以看到，人机对话分为口语理解+单轮查询、多轮对话、开发者平台+定制交互流程三个阶段。其中各阶段最为核心的在于自然语言的理解，例如在“订一张上海飞北京的头等舱，下午5点出发，国航的”语句中，通过分类器将场景中最为重要的参数提取出来，然后用到火车票的数据服务去取结果并返回给用户。但用户往往不能在一句话中把所有的信息都提供出来。那么就需要通过多轮对话明确用户意图，一般是分为两个阶段：第一阶段，通过对话得到结构化查询；第二阶段，将查询的结果通过自然语言反馈给用户。

图八自助服务机器人

在问答场景中，需要准确找到用户问题的对应答案。通过问答引擎后，又分为三种形式：基于知识库的问答、基于知识图谱的问答、开放式聊天。每个企业都肯能用户自己的FAQ或者知识库或知识图谱，数据来源可以是企业内部数据库或互联网数据。

图九赋能生态圈

刚才所讲的这些技术点，阿里目前也正在做。我们希望能够自行搭建最核心的基础平台，然后提供给开发者用于定制化开发。所以我们会做底层核心技术的研发，在此之上提供了一些定制工具。通过用户上传数据或者典型的资料，对应的在用户所处的环境内进行优化。

在客户端，因为语音是比较复杂的，因为它必须有个数据采集端（录音口），这一点尤为重要，如果录音出了差错，那之后的工作基本就等于白费了。因此一般选用麦克风矩阵进行采样，在噪声较大的环境中还需要降噪处理，以保证录音的质量。

今天我们通过阿里云数加平台发布了一部分成果，包含技术文档、SDK等等，感兴趣的听众可以去自行查看。

应用案例分析

刚才更多讲的是技术，下面我分享几个具体的案例。

图十语音识别助力行业变革

我们和蚂蚁客服有着深度合作。在双11当天大概有500万用户的查询，实际上94%都是自动解决的，只有6%是通过人工解决。这背后采用了大量的人工智能的技术，如上图显示的“安娜”。这是一个自动问答机器人，不仅可以回答你询问的问题，而且会根据你的历史行为进行提早预测你可能遇到的问题并给出建议。

另外一个工作就是：在客服电话时，用户可以通过语音来表述自己的问题，通过智能语音识别和交互转接到对应的客服上，免去了传统的不停跟随提示按键的步骤，缩短了服务过程。

图十一 YunOS手机中的个人助理

另外一个是在YunOS手机中的个人助理，其中包含了二十几个领域的信息，还包括一些可执行命令，例如设闹钟、发短信、打电话等。后续还会加入人性化的功能。

图十二阿里小蜜

最后一个案例是阿里集团客服的合作——手机淘宝中的阿里小蜜，它通过语音的交互实现售前、售中、售后的打通，全方位的为消费者服务。

总结

智能语音可以有很多创新的用法。在未来的几年内，智能语音一定会非常快地普及和推广开，并且应用于各类场景。

关于分享者

初敏博士,阿里云iDST总监

码农公寓

相关文章