**如何做到听懂和看懂,这就是多模态语义理解要解决的问题。
**
7月9-10日,36氪在北京和上海同步举办“2019WISE超级进化者”大会,活动设有七大会场,关注企业发展变革路径、行业风向把握、零售行业的进击与蜕变、万亿企业服务市场的崛起、产业创新机会、全球化趋势与差异化需求的爆发逻辑等议题,邀请超百位行业领袖,聚焦那些引领行业变革的超级进化者的崛起之路。
细心、周到、有同理心,这或许是人们对未来机器的想象。然而目前看来,我们距离这种理想状态还有差距。在AI领域中,语音识别、图像识别和语义理解与机器的智能化息息相关。相对于语音识别和图像识别的大规模落地,语义理解的落地目前还处于推进过程中。深思考就是一家专注于多模态语义理解的公司,这家公司未来的目标是做万物互联时代语义理解的大脑。在深思考人工智能CEO兼AI算法科学家——杨志明博士看来,目前人机对话的体验和效果远远不够,背后缺的就是多模态语义理解,而拥有多模态语义理解相关技术的深思考,已经在汽车、智能家居、医疗健康等领域实现产品和AI技术的突破。杨志明认为,未来还会有更多、更前沿的应用出现。
以下是演讲正文
大家好,非常荣幸与大家分享一下深度思考人工智能在AI语义理解的规模化落地。
我们聚焦多模态深度语义理解技术。目前AI粗略分三大领域:语音识别、图像识别和语义理解,在学术界大家认为语义理解是人工智能最后的一个皇冠。目前语义理解最前沿的技术叫多模态语义理解技术,就像人看电视一样,是同时看着画面、听着声音、看着字幕来做综合理解,其中人脑就是多模态深度语义理解的“引擎”。我们专注于多模态深度语义理解技术,我们是语义理解赛道的企业。
今天分享一下,人工智能语音识别、图像识别已经实现了大规模的落地,语义理解如何像图像识别和语音识别一样大规模快速落地。
介绍一下深思考:深思考最擅长多模态深度语义理解,在短文本理解方面,聚焦在人机对话方面,目前是中文领域上下文多轮人机对话技术权威赛事评测的多届蝉联冠军;在长文本理解方面,主要体现是机器阅读理解,最新的2019语言与智能技术竞赛拿了全世界中文的冠军。深思考团队来自于中科院和清华大学的AI一线科学家。我们未来的目标,是做5G时代或者万物互联时代语义理解的大脑。我们的产品就是多模态深度语义理解引擎iDeepWise.ai。语音识别能解决听见的问题,图像识别解决看见的问题,那如何做到既听懂也看懂,这就是多模态语义理解要解决的问题。
介绍一下深思考落地产品。现在深思考聚焦多模态深度语义理解引擎iDeepWise.ai,聚焦To B战略,实现了多个场景下产品的快速、深度落地。在智能车联网数字座舱场景下:我们的产品落地在智能车联网数字座舱内的多模态语义理解与人机交互;在智慧营销场景下,我们的产品帮助汽车用户进行AI自动建档、AI用户意向分级,帮助汽车主机厂分析潜在客户,提高销售成单率。在医疗健康场景下,用多模态语义理解技术做癌症早期筛查。在智能家居场景下,实现健康营养、人与家庭和家居设备的人机交互。另外依托于2亿部智能终端手机场景做手机和人的交互。
介绍一下第一个落地场景,就是智能车联网数字座舱。传统的汽车有一个各种仪表的传统的驾驶室,。随着汽车自动驾驶、智能车联网不断发展情况下,传统座舱发生了改变,我们称之为数字座舱。意思就是不再是一个简单的驾驶室,而是成为汽车在驾驶过程中的一个*的多模态信息的汇聚地。比如智能车联网场景下,汽车跟道路基础设施之间、汽车跟汽车之间、汽车跟互联网之间都能够做信息的连接和交互。汽车本身装了一些系统,通过视觉对车外的环境做感知与理解。很多汽车内部有很多传感器,比如温度传感器、有语音信息输入。在智能车联网有很多模态的信息,有手势的模态、语音的模态、图像的模态。数字化场景下这些多模态信息如何汇聚起来做综合理解,提供给人做互动,我们提供多模态语义理解与人车交互大脑。
我们用在车内,第一能对多模态信息进行理解,第二可以在数字座舱环境下实现人、车和家庭的连接。在汽车里面,比如商务汽车,可以通过人车对话做智慧办公。另外我们还实现了RPA,传统的人机对话只是实现问答式交互,我们加入RPA自动软件机器人,不光跟你做人车对话,而且能够自动帮你完成一些事情,比如预定会议室、和家里的设备做联动、执行。在智慧驾驶场景下处理业务、家庭场景下进行健康咨询,也可以融入数字座舱的应用里。
第二个是汽车智慧营销场景。汽车营销场景下,有用户的对话信息、线上咨询信息、线下有用户的路线、停留时间、实际看车时的各种信息,我们把它综合起来做多模态语义理解。最后对用户进行AI自动建档、AI自动用户分级,以及大数据分析,为主机厂商销售提供闭环的大数据分析,以及助力4S店把车销售得更好。
第三,针对手机场景,跟手机厂商做深度战略合作。比如在智慧出行,用手机订酒店、订车票、订饭店。像苹果Siri是一问一答式的,但一些事情不是通过一问一答就能完成,中间可能会穿插不同的场景。目前这块我们已经有很大的突破,深思考的人机对话技术,不但能够实现上下文理解,还可以做到切换完场景之后,还可以切换回来,实现*跨域的对话,最后通过RPA帮你自动完成这个任务。
另外在健康咨询这块,很多健康营养非常重要,比如妇女孕期的健康咨询,不用去医院,可以通过人机交互的方式,以手机作为载体,实现健康咨询场景下的多模态语义理解和人机对话。
第四,智能家居人机交互场景。目前的对话体验远远不够,背后缺的就是语义理解,就是它能听见语音指令,但不能理解背后的场景。比如年初有一个媒体披露,“我要订餐,不要日本菜”,结果出来的都是日本菜。比如有一些厂商发布音箱的时候,无法进行上下文理解,“来一首梅艳芳的歌,然后再说换一首她唱的其他歌”,就成了其他人唱的歌。如果用了多模态理解技术,就可以实现上下文的指代,说“再换一她唱的其他首歌”,出来还会是梅艳芳的歌。比如调空调温度,传统的语音识别可以识别出“调到28度”这一固定指令,但是如果说“我感觉有点热,帮我调到适合的温度”,这时候就不能理解了。语义理解就可以起到这个作用,了解你的个性化信息和习惯,能够理解大白话。比如“调高一点”,它可以通过语义理解实现最终的意图。
第五,智慧医疗健康领域。
目前已经实现了大规模医疗早筛。为什么语义理解能够用在AI早筛呢?举个例子,宫颈癌的筛查,单个细胞来看很难看出该细胞是阴性、阳性或者病变。但是根据周围环境和相邻细胞的位置关系、排列组合关系,可以判断出该细胞是隐性还是阳性。这就是图像视觉的语义理解,就是能够通过多维度信息理解图像背后的含义,就是说AI能“看懂”这张图。
深思考落地的时候,重点关注AI的三驾马车——算法、算力和数据。在长文本的理解上,比如阅读一本书,传统人机对话技术需要搭建知识图谱和问答对的数据库。而最新的语义理解技术,可以像人一样,看完一本书以后,会对这本书里面的非结构化文本进行多模态理解建模,当你问这本书里面的问题时。它对这本书里面的非结构化的信息进行多模态理解以后回答,非常类似人脑理解以后再回答问题。人看完一本书去回答一个问题时,不会先整理出一个问答对或者知识图谱。人是凭着大脑的理解,回复别人问的问题。机器阅读理解的基本原理就是这样,在这方面,深思考是具备非常突出的技术优势的。
深思考具备了非结构化长文本的机器阅读理解能力,避免了传统语义理解或者智能客服,用大量的人力物力去构建知识图谱或者问答对。我们直接阅读非结构化文本,一篇文章、一个网页都是非结构化的,现实中数据都是以非结构化为主。
深思考如何做到AI语义理解的规模化落地?除了上文阐述的以外,还实现了AI的落地场景的四个闭环。
第一,业务闭环。很多AI厂商提供一个单一的API接口或者某一块算法。这样很难深入到业务场景。我们深入业务场景,解决业务场景里面的关键问题,提供一站式解决方案,实现业务闭环。
第二,数据闭环。把业务场景下的数据从流入到流出,流入以后AI如何去学习,如何去整理这些数据,如何用这些数据构建AI模型,以及用AI模型更好地输出AI能力,解决产品落地当中的问题,实现数据闭环。
第三,模型闭环。AI模型通过无监督、半监督或者全监督学习,不断在线训练AI模型。模型在线训练以后,其具备更强的能力去解决问题,从而用户就会越喜欢用,越喜欢用,这个场景积累的数据会越多,就成一个良性闭环,最终还是打造一个产品闭环。
第四,产品闭环。落地时候不管是AI还是BI,最后还是解决用户场景下的服务问题。
总结一下,语音识别聚焦听见的问题,图像识别聚焦看见的问题,深思考主要聚焦听懂看懂的问题。未来随着5G、物联网以及产业互联网的发展,要深植边缘计算和*智能,成为万物互联里面的语义理解的大脑。未来的设备不光能听到、看到,而且能理解你、听懂你、看懂你,更好地为你服务。处处皆智能,万物可对话。
目前深思考已经商业化深度落地了大量的场景,汽车、医疗、智能家居中一些头部客户的已经成功落地,并不断快速规模化扩展
希望大家多多关注深思考人工智能。谢谢大家!
https://v.qq.com/x/page/d089667n7wz.html