摘取人工智能的明珠：达摩院语音技术发展之路

2021-11-10 13:38:47

演讲嘉宾简介：鄢志杰，达摩院语音实验室负责人，IEEE senior member

以下内容根据演讲视频以及PPT整理而成。
观看回放 https://developer.aliyun.com/live/2640
本次分享主要围绕以下三个方面：
一、达摩院语音实验室使命
二、打造完全自主全链路技术栈
三、案例分享

一、达摩院语音实验室使命

达摩院可能是大家即熟悉又陌生的组织。自2017年开始，达摩院走过了2年多的时间，正如马云老师在2017年云栖大会上所提到的，达摩院的定位即不是Research for fun，也不应该是Research for profit，而是Research for profit and fun。那么什么样的语音相关的Problem 是即profit 又fun的？

1.语音交互无处不在

达摩院语音实验室本着让语音交互无处不在的宗旨，对语音技术进行探索和研究，将过往的实验室模型和技术应用到商业场景中，不断打破行业边界。从最开始的借助头戴式耳麦和桌面PC进行语音识别，逐渐演化到使用手机就可以进行精确的语音识别，以及与远距离智能音响、智能冰箱、智能机器人等进行语音交互，语音技术在不断的解锁新的使用场景。达摩院语音实验室也希望不断的延伸语音技术的触角，让语音技术渗透到人们生活的方方面面，连接人与互联网。

2.予以行业实践者扩展语音技术边界
达摩院语音实验室的另一个使命是予以行业实践者扩展语音技术边界。传统行业中，语音技术更多是掌握在大公司手中，并服务于更宏大的系统中，如微软研究将语音技术研发为Windows 和Office的输入工具。但随着技术的发展，阿里希望为更多行业实践着提供开箱即用的语音技术，将语音技术拓展到其它的行业中，实现语义技术更高的商业价值。“以产品为核心，已技术为基础，以市场为导向”是达摩院语音实验室的口号，从这句话可以看出达摩院与传统研究院存在诸多不同。达摩院投入了非常多的人力，物力研究核心技术，同时将researcher 和engineer放在同一个组织中，使得最源头的研究迅速转化为产品，同时通过产品收集反馈，为后续研究选题提供基础。最后希望通过市场为导向，指导研发的选题，使得研究可以与商业世界产生联系，以最快的速度产品化，实现更高的商业价值。

二、打造完全自主全链路技术栈

阿里自2014年开始着手研究语音技术，并迅速组建了世界级科学家和工程师的专业团队。团队成员多元化，来自两岸三国五地，包括北京、杭州、西雅图、硅谷和新加坡等，海纳百川，发挥众家所长。阿里语音AI一直强调搭建全链路的技术栈，甚至从最源头的声学设计、麦克风阵列设计、硬件电路到上层的语音合成、语音识别、以及问答系统、以及最上层的云端工业级语音交互系统定制平台都配有专门的团队。之所以没有借助第三方企业的技术是因为语音不仅是一种科学还是一种技术，除了解决问答的问题，更多的是应该提供更好的语音交互体验。只有下苦功，投入很多人力物力搭建全链路技术栈才能使得最终的语音交互系统效果更好、同时提供优良的用户体验。

1.语音技术的作用

语音技术是很重要的桥梁，包括人与人之间的沟通和人与互联网的交互，语音都是最自然，最便捷的沟通桥梁。阿里云语音技术团队的整体目标定位是为阿里巴巴经济体及阿里云客户，供给无处不在的语音交互智能服务。其中服务是通过统一的平台型产品，同时服务阿里内部及外部用户。供给是通过提供具备优秀语音原子能力和交互体验的平台型产品，以“被集成”的方式服务用户，帮助他们在其所在的行业中创造价值。并且相信在未来，所有的空间，包括家居、车载、办公、以及公共空间，语音的触点将无处不在。

2.阿里巴巴经济体语音技术大图

语音实验室最核心的交付物是阿里语音AI，阿里云对外的客户可以同时享受到与内部服务同样的技术。下图展示了阿里语音AI的技术大图，其中语音技术、交互技术、工程技术作为基础研发工作会沉淀为平台产品，如语音原子能力服务、语音交互智能服务和智能拾音硬件等。语音原子能力服务包括语音识别、语音合成、声纹等比较自恰的服务。这些服务进行组合，构成语音交互的服务。目前，达摩院语音实验室正在研究通过拾音硬件将非结构化的语音信息转化成结构化信息。最上层则会服务于各种各样业务的应用。

阿里云通过多年的积累，也获得了较为显著的成果。通过与全球领先的语音智能公司的同场竞技，阿里语音AI与谷歌、亚马逊等公司同时被誉为2019年Top 10 breakthrough technologies之一。通过大家在研发侧与应用侧的努力，使得阿里语音AI在技术和应用层面都走在了业界领先位置。

3.阿里语音AI技术

语音识别技术：语音识别技术是研究最基础的Language model，Acoustic model，Decoder和Online service 的模型组合。通过模型的演化和迭代，制造更多的应用。好的模型意味着更高的accuracy，更低的消耗，以合理的成本实现语音AI的云服务化。

语音合成技术：语音合成与语音识别相反，指将语音转成文字。达摩院语音实验室自主研发的KAN-TTS的语音合成技术，融合了目前主流的端到端的TTS技术和传统TTS技术，从多个方面改进了语音合成，提升了语音合成的自然度。

语音对话技术：阿里也在不断的提升语音对话技术，无论是ESIM的开源，还是取得DSTC-7冠军，异或取得Commonsense AQ冠军，都是阿里在语音对话技术方面的自主研发所取得的成果。

三、案例分享

1.对内服务案例

阿里经济体本身就是语音技术可以施展才华的广阔场景。下图介绍了在阿里巴巴经济体对内服务的典型案例。如淘宝和支付宝的语音助手，可以帮助服务电话用户；高德语音助手为用户提供唤醒功能和语音导航功能；钉钉可以将用户的输入语音实时传化为文本，解放接收端的压力；以及目前处于市场领先地位的天猫精灵智能音响；甚至在海外国家提供蚂蚁金服的智能语音识别服务。在内容安全领域，保障非文字内容的安全。甚至在疫情期间，阿里巴巴智能疫情机器人成功落地全国27个省份，累计为39座城市拨打超3000万的防控摸排电话，完成100万人次的在线咨询服务，有效缓解了防控一线人力不足的问题。

2.零时差上云

如果大家对语音技术感兴趣，在阿里云官网就可找到想应的技术及解决方案。如语音AI原子能力中包括录音文件识别、实时语音识别、一句话识别、语音识别自学习、KAN-TTS语音合成、声优工厂等。在语音AI的技术解决方案中提供了云小蜜，智能对话分析，内容安全及智能外呼等案例。

4.语音识别自学习服务

任何人都可以通过语音技术解决自身行业中的问题。但目前语音AI技术存在一个明显的行业间的Gap，即很难有一种技术在不同领域中都达到很高的accuracy，如金融行业和电商行业。需要根据具体的领域及行业特性，制定具体的语音识别模型。与传统定制模型不同，阿里语音识别自学习体系是通过在云上提供具体的语音技术和工具，让实践者自主的进行学习，用户只需拿出一些行业数据，阿里语音识别自学习体系为其提供数据标注，模型训练，模型部署等服务。

语音识别自学习服务案例：以授人以渔的方式，加速语音技术在不同行业中创造更多的价值。阿里除了提供开箱即用的功能，还给合作伙伴提供了多种工程化的服务。如中国移动10086使用阿里语音识别自学习功能助力语音导航，省去了大量的运营成本，并解决了大量的用户问题。

基于KAN-TTS的语音合成定制功能，可以解决传统的人生定制方案所带有的机械感语音问题，是的录音内容更拟人化，大大缩减数据的收集时间，平均以月为单位定制语音合成模型。
目前，有很多行业都在使用阿里的智能语音服务。阿里语音AI为浙江电力提供虚拟调度员，将语义理解、知识图谱、智能决策等功能进行全面结合，减少了80%的人工重复工作，帮助客户提升工作效率，减少了上亿元的生产运维支出。
阿里语音AI为智慧地铁提供语音售票及问询机。通过在智慧交通领域与高德、支付宝深度融合，用户只需语音搜索目的地，就可以为其提供线路规划，无现金支付等功能。并且在嘈杂的环境中依然可以进行语音的交互，提供周边车站，设施等信息的自主问询功能。智能语音售票及问询机已在全国多个城市落地，如北京、上海、杭州等。

AIoT也是目前大家广泛关注的领域，如下图中的右侧是一个小的语音模组，左侧是开关面板。通过语音模组的嵌入可以瞬间与云进行打通，同时具备语音交互的能力。