智能语音未来十年技术趋势预测

来源 阿里语音AI 公众号

“ 对未来十年作出预测,绝对是一件冒险的事情。事实已经无数次证明,科技的发展往往远远超过人们的想象,且近年来各类技术进展的加速度,更有不断加快的趋势。

站在一个全新十年的节点上,我们不妨回望过去,再试图展望未来。试着通过这些回望和展望,能够寻觅到技术新十年的蛛丝马迹。

回望过去,在语音技术的应用和研究领域发生了许多有意义的标志性事件。”

第一,手机场景被“解锁”。

语音技术的应用一直以来都是一个不断突破并“解锁”新的场景的过程。众所周知,语音是人与人之间最自然的交互方式。人类对语音的听清、听懂,几乎是“放之四海而皆准”的。

应对不同的背景噪音、口音、说话方式、主题等等,人类都能几乎无障碍的使用语音进行交流。例如,即使在一个鸡尾酒会上,人类说话人之间仍能交谈自如(Cocktailparty effect)。

然而对机器来说,听清、听懂人类语音,到目前为止仍是远未解决的问题。过去我们笑称“脱离现实场景去空谈识别准确率都是耍流氓”

语音识别的准确率直接决定了后续的语义理解、对话等交互技术的性能,因此,不断提升语音识别在各类复杂场景下的准确率、不断让此前做不了或做不好的场景变得可能,一直是无数研究者和实践者孜孜以求的课题。

过去,以Siri发布开始,到Googlevoice search的推出,再到shortmessage dictation(例如今天的一些手机语音输入法),手机场景的语音交互正式跨过了门槛,被逐渐解锁。

要知道在此前,语音识别技术顶多能够在close-talking microphone(近讲麦克风)条件下,做speaker-independent(说话人无关)的、有限场景的听写任务,且准确率有限(典型的英文word errorrate在30%左右)。更不要说类似Siri的手机语音助手交互式应用了。

实现这一“解锁”,主要归功于移动互联网的发展,让大规模手机语音数据的收集变得可能;其次是以深度学习为代表的机器学习技术应用于语音领域,并持续的取得发展;再次是以GPGPU、分布式计算集群为代表的算力的大幅提升;最后是与语音交互有关的部分NLP技术的长足进展,包括超大规模语言模型、NLU等。

第二,远场语音交互被“解锁”。

与上述手机场景一样,以Amazon Echo及其背后的Alexa的发布为代表,远场语音交互在过去的十年被“解锁”。这主要得益于麦克风阵列信号处理、语音唤醒技术及IoT硬件的突破。当前,智能音箱已经不陌生,各类带有远场语音交互能力的IoT硬件也正如雨后春笋般层出不穷。

今天,如果加上手机、智能音箱等,全球预计有超过30亿语音助手在为人类服务。我们正通过这种人与人之间最自然的交互方式,获取移动互联网上的内容和服务。

沿着远场语音交互的路径,以麦克风阵列、多模态技术为加持的公共空间嘈杂环境下的语音交互也在逐渐得到解锁。

今天我们可以看到,即使在嘈杂的地铁站、餐厅,一些语音售票问询机、语音点餐机等,都逐步得到应用。

这类场景此前因为噪声、特别是人声噪声的干扰问题,通常无法得到理想的语音交互体验。实践者的探索目前已延申至这个领域,并取得了初步的成功。

第三,语音合成“成长的烦恼”

以前,每一位从事语音合成的技术人员,都梦想有朝一日由机器合成的语音可以接近真人发音。

今天,随着技术的突破性进展,我们已经从努力追求真人发音,到开始担心机器语音合成技术过于逼真、以致“以假乱真”的冒用问题,大家可以去体验当前最新的语音合成技术能够达到的水平。

今天,定制一个高品质声音所需的成本(录音的时间和资金)已经比十年前降低了至少一个数量级。定制一个较低音质、娱乐性的、普通人的声音,只需要用手机录制大约20句话。

这意味着在未来,我们每个人都有望定制一个自己的“声替”,保存自己的声音特征,或替你去回答别人打来的电话等等。

第四,Smooth-talkingAI assistant正走进人类的生活

以Google的Duplex demo为起点,smooth-talking AIassistant被MITTechnology Review评选为2019年十大科技进展,阿里巴巴的名字因为菜鸟语音助手的成功应用也被提及。

今天越来越多的电话是由机器人接起,或由机器人呼出的。不知各位在过去的一年是否也有接到过AI打来的电话呢?

第五,语音技术在研究领域的进展未曾停止

历史上语音技术在研究领域的进展通常脉冲式的。以语音识别准确率为例,通常一个新的技术被提出后,会带来突破性的进展,伴随它的则又是长达10年的沉寂期。

例如,随着80年代末大词汇量说话人无关连续语音识别系统被提出,一直到90年代末,各类discriminativetraining准则才再一次将语音识别准确率推向下一个高度,随后又是10年左右的沉寂。

语音合成也类似,从2000年左右HMM-basedTTS开始,也经历了类似长度的沉寂期。

过去,我们欣喜的看到,在语音技术领域的创新,表现在语音识别准确率、语音合成自然度等指标上,不再是脉冲式的灵光一现,更像是细水长流式的持续演进。而且从十年的尺度上回看,日积月累的进步竟累积成了突飞猛进。

在语音识别上,DNN、CNN、RNN、(B)LSTM、FSMN、CTC、attention、transformer等不断刷新准确率;语音合成上,DNN、RNN、WaveNet、Tacotron等不断刷新自然度;声纹上,i-vector、x-vector等技术不断推动其取得更高精度。相应的,与语音交互有关的NLP技术,也随着NLP大方向上的进展而持续取得进步,且语音与NLP的基础技术(例如transformer)有逐渐融合的趋势。

第六,语音技术开始展现出更广阔的商业化前景

以前,在工业界的语音应用几乎没有什么太大的商业价值。很多时候甚至是为软件系统的accessibility功能而存在的(例如为TTS为视障、ASR为残障人士提供操作界面)。这也间接造成世界上只有一些大公司玩得起语音技术。由于招聘规模有限,语音方面人才的培养也逐渐降温。

今天,伴随着AI技术又一春,以及语音技术本身水平的提升,语音已经开始展现出比以往任何时候都广阔的商业化前景。随着而来的,是大公司加大投入,以及一批创业公司的诞生、发展,直至语音技术领域人才的炙手可热。

今天在电话客服、司法政务、教育、互联网、IoT、电力等等行业,语音技术的应用方兴未艾。在语音技术的应用方面,中国也逐步实现了从赶到超的跨越,在很多方面走在世界前列,也发展出众多的传统语音技术提供商及云上的语音技术提供商。

第七,公民个人隐私等问题正日益受到重视

随着语音助手类应用越来越多走进人们的日常生活,语音技术在公民个人隐私、数据合规、反骚扰甚至诈骗等方面正日益受到更高的重视,相关的热点事件偶有发生,行业规范和法律法规亟待完善。

可以预见随着下一个十年的到来,这方面的规范会逐渐加强,人们仍需寻找技术进步、安全,与个人隐私方面的平衡和共识。

下面我们逐一来看一下各个语音相关技术能力上的过去回顾和未来展望。

语音识别研究

语音识别的研究由来已久,最早可以追溯到上世纪50年代,但是在过去很长时间语音识别普遍采用的是基于混合高斯模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的框架。

2009年,深度学习技术被应用于语音识别,基于混合深度神经网络-隐马尔可夫模型(DNN-HMM)的框架替代了原来的GMM-HMM框架。

进一步的, 通过结合大数据,计算力,更强建模能力的神经网络结构,基于神经网络的语音识别系统性能达到了实用化的要求,在智能交互系统里得到广泛的使用。

近几年,语音识别的研究主要的方向是如果构建端到端的语音识别系统(End-to-End ASR)。传统的语音识别里,包含声学模型、语言模型和发音词典,整个识别系统的构建包含复杂的流程。

端到端语音识别的目标是简化语音识别系统的构建流程,用一个神经网络直接端到端建模语音信号和最终的输出文本。

关于端到端语音识别主要的研究方向有两个:1)基于Attention-Encoder-Decoder的端到端语音识别;2)基于RNN-Transducer的端到端语音识别。

目前端到端的语音识别的研究包含:

1)网络结构的改进:从之前普遍采用的循环神经网络,开始使用更多种类的网络结构,例如深层的卷积神经网络(DCNN),Transformer等等。

2)流式(streaming)识别:Attention-Encoder-Decoder采用的attention需要利用整句的信息没法进行流式解码,目前的研究主要关注在如何进行online attention。

3)小尺寸的端上语音识别模型:随着IOT设备的普及,以及对用户数据隐私的保护,可以运行在设备上的小尺寸的语音识别模型是一个很强的需求。

端到端的识别系统不需要使用额外的大尺寸的语言模型,刚好适合于端上语音识别的需求。

站在新的一个十年,未来构建小尺寸的流式端到端语音识别系统研究将成为工业界应用的趋势。

除了端到端语音识别,关于多语种语音识别,多模态语音识别,复杂场景下联合前端信号处理的语音识别也是目前语音识别研究领域关注的重点。

目前通用的中英混读语音识别已经取得了显著的进展,开始走向了实用化,进一步的如何扩展到更多语种,以及资源受限的语种是一个研究难点。

联合音频和视频的语音识别(audio-visual ASR)在噪声环境下展现出了很大的潜力,但是受限了训练数据获取的难度,目前主要还是停留于研究阶段。

联合前端信号处理的语音识别在噪声环境下获得了显著的性能提升,但是让识别系统能够处理复杂的场景,例如鸡尾酒会(Cocktail)问题,需要联合更多的技术,例如阵列信号处理,说话人分离,语音声学建模等。语音识别的研究由来已久,最早可以追溯到上世纪50年代,但是在过去很长时间语音识别普遍采用的是基于混合高斯模型-隐马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model, GMM-HMM)的框架。

2009年,深度学习技术被应用于语音识别,基于混合深度神经网络-隐马尔可夫模型(DNN-HMM)的框架替代了原来的GMM-HMM框架。

进一步的, 通过结合大数据,计算力,更强建模能力的神经网络结构,基于神经网络的语音识别系统性能达到了实用化的要求,在智能交互系统里得到广泛的使用。

近几年,语音识别的研究主要的方向是如果构建端到端的语音识别系统(End-to-End ASR)。传统的语音识别里,包含声学模型、语言模型和发音词典,整个识别系统的构建包含复杂的流程。

端到端语音识别的目标是简化语音识别系统的构建流程,用一个神经网络直接端到端建模语音信号和最终的输出文本。

关于端到端语音识别主要的研究方向有两个:1)基于Attention-Encoder-Decoder的端到端语音识别;2)基于RNN-Transducer的端到端语音识别。

目前端到端的语音识别的研究包含:

1)网络结构的改进:从之前普遍采用的循环神经网络,开始使用更多种类的网络结构,例如深层的卷积神经网络(DCNN),Transformer等等。

2)流式(streaming)识别:Attention-Encoder-Decoder采用的attention需要利用整句的信息没法进行流式解码,目前的研究主要关注在如何进行online attention。

3)小尺寸的端上语音识别模型:随着IOT设备的普及,以及对用户数据隐私的保护,可以运行在设备上的小尺寸的语音识别模型是一个很强的需求。

端到端的识别系统不需要使用额外的大尺寸的语言模型,刚好适合于端上语音识别的需求。

站在新的一个十年,未来构建小尺寸的流式端到端语音识别系统研究将成为工业界应用的趋势。

除了端到端语音识别,关于多语种语音识别,多模态语音识别,复杂场景下联合前端信号处理的语音识别也是目前语音识别研究领域关注的重点。

目前通用的中英混读语音识别已经取得了显著的进展,开始走向了实用化,进一步的如何扩展到更多语种,以及资源受限的语种是一个研究难点。

联合音频和视频的语音识别(audio-visual ASR)在噪声环境下展现出了很大的潜力,但是受限了训练数据获取的难度,目前主要还是停留于研究阶段。

联合前端信号处理的语音识别在噪声环境下获得了显著的性能提升,但是让识别系统能够处理复杂的场景,例如鸡尾酒会(Cocktail)问题,需要联合更多的技术,例如阵列信号处理,说话人分离,语音声学建模等。

语音合成研究

最近两年的TTS(语音合成)可谓是波澜壮阔,整个方向的技术、产品和业务形态都发生了翻天覆地的变化。

这个变化首先是从学术界发起的。虽然整个deep learning技术在2010年后就被引入到了语音识别领域,并发挥了巨大的作用。但在TTS方向,一直应用的比较缓慢。直到2016年Google的WaveNet、2017年MILA的Char2Wav和2017年Google的Tacotron,这几个工作的提出,才将deeplearning的强大能力赋予整个TTS方向,从音质、表现力和建模难度几个方面都显著的超越了过去。

以这几个杰出工作为开端,学术界和工业界的同学也纷纷在各自领域进行了延伸,形成了目前百花齐放的局面。

而最近两年,最大的变化是大家开始将学术界的第一流成果带入到实际产品中,将高体验的音质效果、接近真人的表现力和小数据量定制声音的能力产品化。

例如Google Cloud在2018年上线了基于TPU的WaveNet产品化,Microsoft Azure在2018年上线了基于GPU的全Neural产品方案。阿里云也在2018年上线了全Neural产品方案,并且考虑到实际客户和业务的扩展需求,也经过大量的优化工作,该方案是目前业内唯一的完全基于CPU的全Neural产品化方案。

站在新的一个十年,随着核心技术方案的更新换代,对应的产品和业务形态也随之变化。

阿里巴巴集团客服和蚂蚁客服已经采用了最新的TTS产品,为用户提供更有表现力的智能客服体验,2019年双十一期间为数百万用户解答问题;天猫精灵也在2019年用最新的技术方案提供高体验的合成效果,还能为父母根据少量数据定制父母声音的TTS。

同时,阿里云也在2019年对外推出新一代语音合成定制服务,可以依靠新技术提供快速低成本定制服务,例如移动端第一财经APP,就是基于用户提供的财经新闻主播数据,定制了一款高表现力合成声音,从而可以在APP上为实际用户提供高体验的新闻朗读效果。

智能麦克风

自从100多年前发明麦克风以来到大约2010年,麦克风的形态从Ribbon,动圈,炭粒,PZT,电容, ECM到MEMS等发生了多次变化,但作为语音通信器件的功能一直没变。

随着近年来人工智能的发展,麦克风被赋予了新的功能,即作为自动语音识别的前端拾音器件,接收到的声信号不再是给人耳听的,而是给具有语音识别功能的机器听的了,从用户角度看,麦克风拥有了智能,即麦克风能听懂人声与人类交流。

例如这几年流行的智能音箱,则是麦克风智能拾音的一个典型的产品形态。

目前,像手持麦克风,非免提的手机等场景的近场智能拾音已经基本不成问题,但远场智能拾音仍是一个挑战。

相对于目前火爆的视频AI,由于声环境的复杂性,远场智能语音的信号链路更长。

首先,由于房间混响的存在,远场麦克风收到的信号不再是纯净的目标声源信号,而是原始声源与房间传递函数卷积而来的,而且,房间传递函数往往由于空气扰动,温度的细微变化等原因是时变的,特别是在高频频段;

其次,由于环境声噪声与元器件电噪声的存在,远场麦克风信号的信噪比可能不高。

另外,像智能音箱场景,从扬声器来的声学回波会耦合到麦克风,而目前的自适应抵消器技术在一些场景下还不能完全消除回波。

最后,非目标语音的干扰人声也带来挑战。

对于上述挑战,麦克风阵列作为一个明星技术被各大厂商广泛使用,而智能拾音的性能则很大程度上取决于阵列信号处理算法, 算法的目标函数一般是提高DRR (Direct ReverberantRatio),信号噪声比,信号干扰比与更彻底的回波消除。

相对于单个麦克风单元,麦克风阵列由于使用多颗麦克风而大大增加了*度,这给算法工程师提供了很大的想象空间,各厂商的算法也百花齐放,最常用的算法有MVDR (minimum variancedistortionless response), GSC(general sidelobe canceller), BSS(blind source separation), etc。

阿里达摩院则是业内首家把信号处理算法与声学设计相融合,提出了差分指向性麦克风阵列的概念,并且通过原型机证实了可行性:在真实的复杂声环境下与国际知名品牌对比测试,达摩线性阵列拾音器具有明显优势。

基于麦克风阵列的智能拾音器一般有两种产品形态:定向拾音与全向拾音。

定向拾音器一般用于可控的声学场景,例如司法审讯场景,审讯人员与嫌疑人的位置是固定的,并且是预设的,所以拾音器的位置固定,且只需要拾取预定几个方向的声源,同时抑制混响与噪声来提高DRR与信噪比,这类拾音器一般基于线性阵列。

全向拾音这个名称则往往会导致一些混淆,因为有一类麦克风单元也称为全向麦克风,但DRR不高,高品质的全向拾音器则利用多颗全向/定向麦克风单元来达到全向拾音且高DRR的目标,这一般基于单环或多环的圆形阵列。达摩院基于定向单元的圆形拾音器与业界标杆做过对比,主观评价明显优异。

智能麦克风的阵列算法除了上述的四个目标,分角色的语音转文字则是一个比较新的产品需求。该需要的技术难点之一在于说话人在说话时的位置可能会时变,说话时的头的朝向也有可能会变,例如利用白板作presentation的场景,所以基于麦克风阵列角度的分角色就有可能不准确。很多厂商也在尝试结合声纹技术来解决这个问题。

智能拾音器的另一个趋势是功能上的all-in-one:通信功能,智能语音功能,与录音笔功能。这三个功能对于语音的要求很多是相同的,例如降噪,去混响。

但有些方面则不同,通信功能的要求是低延迟,低失真,高带宽,多人说话时需要混音,以及适当的混响与舒适噪声填充;智能语音功能的要求则对延迟,失真要求没那么高,但对多人同时说话需要分离出目标语音;录音笔的要求与通信要求有些类似,但在延迟上可以放宽,不需要填充舒适噪声。

站在新的一个十年,智能拾音器作为Speech AI链路中的第一个链条则扮演了重要角色,其声学设计与信号处理直接影响到系统的性能,所以开始受到了业界越来越多的重视。

语音是信息的一个基本载体,有了人类以来就一直就有语音,是个历史悠久的研究领域,在这个人工智能时代,语音必将焕发出新的生命。

语音交互

2019年,该领域一个很明显趋势是语音入口的总量持续增长:根据Juniper Research的数据,目前全世界已经累计有25亿个语音助理存在,包含了智能家居、智能车载、智能手机和可穿戴设备等诸多品类。

其中作为最为引人关注的智能音箱品类,根据 Strategy Analytics的数据,安装总量从2018年的1.14亿台上升到2019年的2.079亿台。

另外,智能穿戴品类中TWS耳机品类迎来大爆发,2019年全年全球出货总量超过1亿台,其中各个主要的手机厂商是最积极的参与者,带来的一个可能的后果就是用户使用率本不高的手机语音助手,随着TWS耳机的普及可能迎来一个使用率的提升。

另外,一个趋势,就是语音入口迅速往更加多样的设备上进行扩展,比如亚马逊就推出带Alexa的眼镜、TWS耳机、微波炉、夜灯等等,并且开始支持内存小于1MB的低资源嵌入式系统设备,这些都为语音设备的扩展带来了更多的可能。

另外一个方面,语音交互本身朝着个性化交互和更加自然的交互方向发展。在个性化服务方面,苹果的HomePod可以根据声音识别不同家庭成员的身份,并且根据用户的身份生成用户profile,提供个性化音乐、日历、语音备忘录和提醒等服务。

在让交互更加自然方面,全球主要的语音交互提供商推出了连续自然对话的能力,可以做到跟设备一次唤醒,多次对话。

站在新的一个十年,隐私问题也将成为未来语音设备普及的核心问题之一。

这是因为随着语音入口的普及,语音交互也收到了多方面的挑战。其中最大的一个是语音设备引起的安全和隐私问题开始受到媒体和大众的关注,2019年4月份起,媒体开始关注Alexa&GoogleAssistant 的隐私问题,对业界普遍采用的使用用户数据进行标注和训练的方法提出了挑战并做了大肆报道。

在对用户隐私及其敏感的欧洲地区(有GDPR等用户数据保护协议),欧盟对Alexa使用用户语音数据的行为做出了调查。最后作为应对,Alexa可以让用户18个月定期自动删除录音的功能。

模组化智能语音硬件

物联网通信模组是将基带芯片、射频芯片、存储芯片、电容电阻等各类元器件集成到一块电路板上,提供标准接口,各类物联网终端通过嵌入物联网通信模块快速实现通信功能。

同样地,将智能语音涉及到的麦克风阵列拾音、远场语音增强算法、语音唤醒、本地语音识别乃至本地语义理解等,也集成到一块电路板上,提供标准的接口,各类智能语音设备也能通过标准化模组,快速实现语音连接功能。

1.用2个关键连接能力赋能

语音模组通过提供2个关键连接能力(语音连接能力和网络连接能力),赋能下游终端厂商和应用厂商,无需深度的通信和声学支持,就能快速完成一款产品的落地。

2.模组的能力架构

智能语音未来十年技术趋势预测
图表 1. 被控型架构(传统IoT模组)

智能语音未来十年技术趋势预测
图表 2. 达摩院自主架构

图1所示的传统IoT架构,依赖音箱(或网关)作为控制中心,只能在有限的空间,提供比较单一的服务。

如图2所示,我们将语音和网络能力集成模组中。下游厂商在同时获得语音和网路连接能力的同时,还能开发自己的BOT,形成设备自助工作、甚至多种设备系统控制的能力架构。并且,在我们各种形态的模组,都能该系统能力架构。

3.模组的产品形态

智能语音未来十年技术趋势预测
图表 3. Linux版高配模组

智能语音未来十年技术趋势预测
图表 4. RTOS低资源模组

智能语音未来十年技术趋势预测
图表 5.音视频多模态模组

随着无处不在的语音智能战略的推进,以电视、音箱、故事机、售票机为代表的设备智能化趋势明显,远场和多模态语音交互技术发展进入深水区,语音实验室前端处理组在低于-30dB的极低信回比、低于-15dB的极低信噪比、公众空间等场景的语音增强算法得到进一步锤炼,持续在最具挑战的各类边界场景能力保持业界领先。

同时随着接入语音交互能力的设备进一步进入算力低端化,边缘语音交互算法的资源(内存、算力、功耗等)开销要求逐步严格,对语音交互高性能的算法设计和工程优化提出了更高要求,达摩院语音实验室结合领先的算法设计、对理论和场景的深入理解,结合模组和芯片战略,与平头哥深入合作,软硬芯一体化深度优化,推动达摩院领先算法与平头哥「无剑SoC平台」融合,助力语音算法从芯片端开始的技术普惠生态建立。

站在新的一个十年,随着深度学习技术的深入,芯片和模组上的前端处理算法会进一步融合基于数理方程的信号处理和基于深度神经网络的机器学习方法,甚至进一步的,会出现完整的端到端建模的神经网络模型,实现回声消除、降噪、语音唤醒和语音识别等交互功能在统一低资源模型上的落地。

感知计算与认知计算会取得突破性进展,通过创新的声学设计、信号处理和深度学习,「鸡尾酒聚会」问题将会得到解决。创新的算法进展也会进一步推动软硬一体、感知认知一体的深入,芯片等硬件会出现认知反馈型的设计,存算一体、类脑计算取得实质性突破。

公众场所智能语音技术应用

公众场所强噪音环境下的语音识别一直是个比较困难的问题,也极大的限制了语音交互技术在公众场所的应用和普及。

之前国内的主要语音厂商都曾尝试过在公众场所应用语音识别,但是都因为无法解决噪音干扰问题而失败。自2017年底阿里巴巴达摩院通过结合多模态、改进信号处理、以及语音识别、语义理解等方面全链路的优化,成功的解决了公众场所噪音环境的下的语音识别问题。

在2018年初将这项技术迅速的从实验室落地到生产环境中,推出第一代面向公众场所的语音交互技术方案。这套语音交互技术实现了强噪音环境下的语音识别,能在85-90db背景噪音下实现90%以上的语音识别率,并且支持免唤醒语音交互,流式多轮多意图语义理解等功能。

在2019年达摩院又再次在第一代的技术的基础上,推出了第二代多模态语言交互技术方案。第二代相对于第一代在成本,功耗,性能,体积,集成度都有巨大的进步,还增加普通话和方言的自动区分识别,高拟真度语音合成等新功能,整个技术水平相对竞品整整领先一代。

随着公众场所强噪音环境下语音识别技术的突破,原本难以实现的在公众场所用语音交互也变的可行和成熟。公众场所可能未来会成为家居和车载以外另一个语音交互应用的重要场景。

在这些场所中,交通领域对于语音交互应用走在了最前面。目前以语音售票机和语音问询机为代表的公众空间语音交互产品正在越来越为交通行业所接受和认可。目前已经在全国一些城市的多个交通枢纽都部署了语音售票机,并在过去的一年中服务了上百万旅客,得到各方好评。现在越来越多的城市开始进一步尝试运用语音问询机去解答客户问题,解放人力,提高服务效率。同时在类似党建,税务,医院,景区等场景也逐渐开始运用语音交互为客户服务。

语音识别“自学习”技术

在语音AI技术浪潮中,场景化和碎片化仍然是阻碍AI产业化落地的难题,即便常规AI厂商投入大量人力和财力来进行领域模型和重点项目专项调优的建设,但也仅仅只能覆盖非常有限的场景。

为了从根本上解决这一语音技术供给问题,达摩院语音实验室17年专有云发布了自学习平台这一语音技术供给基础设施,并在18年公共云正式上线,提供人名/地名、业务关键词、句子&篇章级定制优化能力。它把传统模型优化调参、评估、上线的复杂过程变成了数据驱动的点击动作,使得识别效果优化不再依赖于语音识别厂商的专家服务,让每一个合作伙伴甚至最终客户的运营人员无需了解AI技术即可自主自助快速显著提升自己场景的识别准确率以满足业务需求,树立了系列标杆案例。

在过去的一年里,一方面我们发布了自学习平台2.0,正式将声学定制优化加入到自学习序列,并开始探索从数据抽取到上线的全链路服务能力。

另一方面生态伙伴的力量开始逐渐爆发,在自学习平台的支持下,优化问题开始逐渐降维成数据问题,不少拥有数据的合作伙伴纷纷加盟,开始建立其自己行业领域模型,大幅改善识别效果,语音AI在行业落地的“最后一公里”问题开始逐渐得以更好解决。

更让人高兴的是越来越多的友商开始加入我们改变语音供求关系的行列。微软在2019年正式发布了Custom Speech对外提供声学和语言模型的定制能力,并以预览版地方式在Office 365中提供组织级别的场景话术和人名的优化能力,这一做法也与我们从18年开始在钉钉的探索不约而同。同样,百度也在今年4月正式发布了语音识别自训练平台,提供对于语言模型的定制能力。

声纹及音频分析技术

达摩院语音实验室声纹及音频分析技术团队,近一年来集中对深度神经网络框架结构进行创新,将发音内容引入到网络建模中,在公开的声纹识别测试数据集上,系统性能取得非常显著的提升。同时,探讨了具有多会话注册和噪音的鲁棒声纹识别技术,重点在于对注册和开发数据中呈现的声纹信息的组织和利用;长时无关任务下,与当前最先进的系统相比,为基于低维i-Vector建模探索出一套更多样化的解决方案,实现了建模前信息配置多样化,从而支持多模型混合部署,降低了计算成本。

达摩院语音实验室开创性地解决了声纹识别技术在大规模应用过程中遇到的数据标注难题,通过循环学习方法,让模型具备从“简“到“难“学习并掌握不同数据、不同信道、不同文本内容的能力。这种非监督自学习的训练框架,在显著提升系统识别性能的同时,大幅降低建模数据标注成本,使得声纹识别技术在智能语音交互领域得到大规模应用。

下一个十年,语音AI必将无处不在

站在新的一个十年做“预测”,我们还是从过去寻找一些脉络。

语音技术在研究领域预计将持续取得“量变”的进展。这意味着语音识别的准确率会持续刷新,语音合成的自然度会持续提升,语音交互的智能度会越来越让人感到惊讶。语音技术在逐步解决感知智能层面的问题后,会越来越将中心放到认知智能层面,并期待有新的具备“质变”性质的研究会推动后者大步向前。

语音技术将再次“解锁”此前做不好、做不了的场景。在手机、远场、电话等场景被“解锁”后,以会议为代表的诸多更困难的场景,预计会在下一个十年被陆续“解锁”。

语音技术将成为人人可获得的“水电煤”。语音技术被供给的方式将在下一个十年完全云化。任何人只要需要,哪怕他没有太多的语音技术专业知识,都可以从云上获得开箱即用并可自主自助优化的语音技术。就像今天任何一个开发者都可以从云上获得虚拟主机、云存储一样,语音技术不再掌握在少数人或少数大公司手中,而是成为通用的、标品的、云上的技术。

人类更多包含语音的活动,将被数字化、结构化并存档。无论是演讲、电话、访谈、会议、研讨,越来越多的语音将被记录下来。因为语音技术的发展,这些数据比以往任何时候都更具价值。基于对这些数据的分析、理解、搜索,有望在效率、决策等多方面为人们带来新的价值。

语音技术在公民个人隐私方面必将受到挑战,新的保护隐私技术将成为研究和应用的热点。端上计算、边缘计算等其它领域技术,将助力语音技术在隐私保护方面更进一步。隐私保护的数据交换或训练算法将被提出。我们将努力在隐私保护与数据利用之间寻求平衡。

上一个十年开启了语音技术大规模应用的时代。下一个十年,无论人们是在家里、车里、办公室里、公共空间,或是线上虚拟空间,随时都会有可以与之通过语音进行交互的界面来连接人与人、人与互联网。语音AI必将在我们身边变得无处不在。

智能语音产品官网链接:https://ai.aliyun.com/nls

智能语音未来十年技术趋势预测

上一篇:arcgis api for flex 高级主题(二) 自定义控件的开发


下一篇:使用Dapper.SimpleCURD注意事项