对话蓦然认知 CEO 戴帅湘：我坚定地不看好智能音箱 | CCF-GAIR 2017

2022-04-11 04:18:19

雷锋网注：7 月 8 日，中国计算机学会（CCF）主办、雷锋网(公众号：雷锋网)与香港中文大学（深圳）承办的 CCF-GAIR 2017 大会，蓦然认知 CEO 戴帅湘在智能助手专场做了《对话即应用》的演讲，阐述了语音交互在生活场景中的具体应用，以及机器对话中需要解决的有关语义理解的诸多问题。

会后，在专访中，戴帅湘又与雷锋网进一步分享了其对于语义理解、场景服务的理解。眼下语义理解的核心是什么？难题在哪儿？如何克服？百度、阿里等巨头的进入将对创业公司造成什么影响......关于这些问题，戴帅湘一一作了解答。

以下为戴帅湘采访实录，雷锋网做了不改变原意的修改：

问：蓦然认知的连续对话能到什么程度？似乎在一些场景中，连续对话总是不能满足需要？

戴帅湘：连续对话其实不是句子，是意图，你可能说五句话还是同一个意图。刚才我说的多轮对话实际是融合了多种场景，比如你说“我要去看电影”，但是在这之前，你可能需要了解，现在上映的有什么电影，是谁演的，这个导演最近有没有绯闻......它是扩展的，不只停留在看电影上面。

你要覆盖尽可能多的、用户可能发散的意图，因为人不是机器，不会按照固定的套路去问。人的思路是一个由单点往外扩散的过程，所以要尽可能地多理解他的意图，尽可能多做长尾的意图理解。解决这种发散性问题，把它囊括在对话系统里面很重要，所以，不是只要多轮次，要将多场景结合在一起。

问：要实现对长尾意图的理解，有什么难题？

戴帅湘：难题肯定会有，但是还是可以做到的。比如说语义理解，你是不是可以快速进行场景移植，是不是可以在新的场景里把已有的、已学的东西进行迁移学习。

要做到这些，现在有一些基本的方案，但不管用哪种，你都会考虑，有没有优化的。难点就在于，你能想到什么样的途径。

问：刚才在台上你说“坚定地不看好智能音箱”，但好像蓦然现在也正在跟声智科技合作智能音箱的项目？

戴帅湘：声智做的是声音入口，它不一定要放到音箱里面，也可以是汽车、电视、穿戴式设备。音箱现在很火，推一个音箱芯片，可以多一份市场，并没有坏处。

但音箱不太可能成为量很大的产品，它烧不了量，规模化就很难，所以不太可能成为像电视那么主流的设备。

问：可亚马逊的出货量已经超过 1000 万台了。

戴帅湘：这是累计吧。美国的生活里，每家每户都有音箱，它是有基础的。这是很重要的原因。一样东西要成为爆款，必须要有延续性，比如手机，用户有需求，手机本身就是很大的市场。

存量市场必须得有，没有存量市场或者存量市场很小的话，推一个全新的品类，其实意义不大。除非你有说服用户的巨大能力，非常强大的营销能力，去让用户接受一个本来不大需要的东西，这个其实是有难度的。

问：为什么选择家居和车载这两个场景？

戴帅湘：因为它们本身就已经实现了商业化，市场前景非常广阔。电视在中国人的家里占据中心位置，做电视不是为了电视，而是为了占住家庭中心。只是电视比音箱难，它涉及的内容太多。

汽车产业已经有 100 年了，它需要融入更多新技术和互联网思维，比如自动驾驶、人机交互。这是一个非常有前景的场景，而且非常适合交互。

问：一些生态厂商，像小米、乐视可能已经占据了家庭设备的中心？

戴帅湘：其实在中国，真正占据家庭中心的是传统设备厂商，电视发货量最大的还是传统那几家。

而且电视没有那么大的增量，你还得改造它，比如说，已有的电视可以通过接入盒子或者其它东西改变。现在在国内，还没有可以垄断硬件的生态厂家，硬件永远是不可能垄断的，它一定是五花八门，百花齐放的。

问：像蓦然这样做云交互的公司，眼下最大的难点在哪里？

戴帅湘：最大的难点在于，现在面对的设备都是传统设备，要传统设备商接受一个新方案，改变既有的交互方式，这本质上需要传统行业的从业者有一定的新观念。比如传统企业和我们这种新兴的 AI 技术行业，如何很好地对接？

都说互联网+，大家的观念是一致的，可是很难加在一起。

问：现在我们的技术在产品化上还有其它新的进展吗？

戴帅湘：我们其实有成套的框架，可以快速变成电视系统，音箱系统或者车载系统。从这方面看，我们有非常快的产品构建能力。下半年我们会做一次发布会，发布各种产品，包括耳机的、音箱的、电视的、车载的、机顶盒的等等。它们的样式都不一样，软件也有差异，但是对我们来说都是一套系统。

问：同样是做语音交互，阿里前几天推出了天猫精灵，百度也在一直强调 DuerOS 的战略地位，巨头的动作会对我们这样的公司决策有什么影响？

戴帅湘：我一直觉得这是一件好事。因为对话式语音交互其实是一个完整的链条，这个链条包含了很多方面，大家要做很多重复工作，比如降噪、云识别，这些劳动其实是不必要的。巨头开放可以很快把这块搞定，让创业公司告别重复劳动。

其实这个环境里最核心的部分是三个：语义理解，对话系统，学习系统。这部分没有任何限制，也没有任何界限，这些大公司自己都没做到这一步，它怎么开放给你？它开源的是两部分：

第一，前面的语音识别、降噪方案；

第二，后台的基本资源，比如百度的那些，其实本身就是免费的，到百度搜索上就可以获取到，它也是拿别人的。

问：大公司如果在这个领域重投入，将会对创业公司造成很大威胁？

戴帅湘：这是有可能的。一个东西刚开始出来，肯定是要跑得快，快速落地，积累数据，迭代，到后面也一定会有竞争，因为大家都认为语义理解、对话系统、学习系统是最核心的。

问：那跟大公司相比，创业公司的竞争力在哪里？

戴帅湘：很多人问过我这个问题。创业公司有一个很大的特点，就是专注，这非常重要，尤其是对于一个还没有成熟的东西，你要去攻克它，快速和应用市场、传统产业设备紧密结合起来。你的技术必须和这些设备同步打造、分析，要和这些公司团队坐在一起分析产品形态怎么设计，技术什么地方可用，什么地方不可用，不可用的情况下要怎么做。

但对于大公司来说，一些客户对它来说可能微乎其微，它的目标是做平台，我们是要创造一个东西。传统厂商并不具有那么多的认知，我们和它紧密结合起来，一步一步，先有一些它可感知的东西，再慢慢往下推。我觉得这个差异是很大的。

问：数据算是我们的一个劣势吗？

戴帅湘：其实我觉得不是。可能你不相信，但是我非常坚定地说，我们在技术上和这些所谓的大公司比，没有任何劣势。在机器数量、带宽费用上，我们会更节约，但是在技术上没有任何劣势。每个细节，每个到达技术的路径，我们都非常非常清晰。

到达每个目标的路径很多很多，我们明确地选择了一条，大公司选择的可能和我们不一样，但无非就是谁更快找到坡度更大的路线，可以快速达到目的。我觉得在这一点，创业公司会更容易，因为它直接和厂商对接，能达到目的，就快速达到目的，不追求平台有多大，多规范化。

问：听、听懂和服务的满足这三点，听懂好像是最难的，如果现在让你打分，满分 10 分，蓦然能做几分？

戴帅湘：这个怎么说，其实还是有一些限制。比如说在生活常用的场景，我们可以达到 7-8 分，但是如果要是泛泛地说，肯定是 5 分以下。因为有太多东西是你不能学习和了解的，它需要一个基本的框架，然后逐步迭代。人也是从小开始学基本的语文数学，然后慢慢学会更多。

现在如果停留在某些常用的、可用的场景里面，只要是能提供生活服务的，我们都能做出比较好的水平。但是脱离整个应用场景说听懂，其实意义不是很大。而且听懂和满足不是截然分开的，它们是紧密结合的，因为其实你不能判断它听不听得懂，而一定是从它的满足或者后效性上判断的。两者天生是不可分的。所以这样分为三个阶段，其实我是不认同的。

问：业务上有 2C 的考虑吗？

戴帅湘：我还是引用别人的一句话：真正做好一个软件以后，你很可能要做自己的硬件。这个硬件的形态可能不一样，可以是机器人，也可以是穿戴式设备，但是对于一个直接做交互，跟用户打交道的公司，将来肯定会推出适合自己的一系列硬件。

我们坚定地看好设备，我觉得影像时代就是设备的时代。

本文作者：张梦华

本文转自雷锋网禁止二次转载，原文链接

码农公寓

相关文章