手机？盒子？打败他们的智能家居入口居然是声音

2023-11-13 07:57:34

自从淼叔把有闻咖啡馆定位为记者之家之后，因为记者常来常往，不少公司也渐渐地把自己的新产品送过来展示，或者一些新服务放在有闻落地，目的也简单，占一条触达记者的捷径。

5月初，京东智能送来了他们的智能音箱DingDong。一开始倒也没多想，咖啡馆嘛总是需要音乐的，而有闻的结构是三间独立的小咖啡厅，所以音响系统也相对独立，把DingDong放在我的办公空间也不影响别的人。联网听歌的功能不新鲜，语音控制效果不错，但考虑到它的另一半血统来自于科大讯飞，也并不意外。

直到某一天，在控制音箱的App某个深层菜单里，看到了“智能家居”这一项，点进去又发现了“微联智能生活馆”，才把这台音箱与亚马逊推出的“Echo”联系在了一起，双方具有类似的野心，不过京东智能选择了更具中国特色的路径。

语音离入口仅有2秒距离

在这个微联智能生活馆中，列出了形形色色的家用电器，小到插头，大到冰箱洗衣机。这些电器的共同特点是支持基于京东微联的Joylink协议（微联是国内第一个自主研发的跨品牌、跨品类的智能家居互联互通平台。JoyLink则是第三方硬件接入微联的底层通讯协议）。2016年，京东智能联合行业伙伴向业界提供Joylink的全面开放服务，基于这样一个共同基础，所有电器都可以用一个App来操控。在前不久的CESA上，京东智能副总裁刘子豪博士也介绍过，京东微联可以让用户自己定义个性化的生活场景，截止到2015年底，微联中已经覆盖40+品类、100+一线品牌、1000+商品的智能产品，它正在成为各种智能场景的联接平台和操控入口。

然而在使用终端上，京东还开辟了一个更便捷自然的交互形式——语音，DingDong音箱就是重要的代表。其实智能家居的入口这件事已经被提及过多次，这个位置被微软觊觎过，用Xbox；被小米觊觎过，用手机；腾讯觊觎过，用微信；钢铁侠在电影里实现过，用虚拟屏幕。京东来趟这趟混水，有戏么？

乔布斯之后最伟大的商业天才贝索斯认为，这事有戏。当他的秘密研发部队Lab126（相当于Goole X之于Google）告诉他Echo智能音箱的研发计划时，他只提了一个要求：“Echo的语音反应速度要达到一秒”。当时的普遍指标是2.5到3秒。如果你说一句话话音落定之后三秒对方才有反映，正常人都会认为跟自己对话的不是人类。

Lab126克服各种技术难关把这一指标提高到1.5秒，Echo上市后果然大获成功，在两周内预订量即超过100万台——第一代iPhone达到这一速度用了70天；它还成为“黑色星期五”时亚马逊网站上售价100美元以上商品的销量冠军。贝索斯迅速将之优先级调高至战略级别，其征兆就是在“美国春晚”超级碗广告中，亚马逊把黄金般的位置给了Echo。

无论Echo还是DingDong都已经证明，相比于手机、盒子、屏幕，语音是更为流畅自然的交互方式，“动嘴不动手”一直是懒人的最高境界。更无心插柳的是，智能音箱的语音交互习惯培养门槛非常低，它最高频的应用——点歌——默认就是这种交互方式。如果人们一开始并不习惯对家电发号施令，点一首歌会让他们自然得多，也更容易接纳智能音箱作为对话对象。

语音控制的两个门槛

不过，到了中国市场，做成这件事需要的不仅仅是一款产品。在技术端，京东云已经积累了大量消费者和产品数据，接下来就是用场景活化这些数据；在渠道端，京东是最大的家电销售平台，对支持Joylink协议的产品略加倾斜即可发挥巨大的影响力；在用户端，微联计划解决了家电产品“非互联网化”的痼疾，使销售不再是生意的最后一步，而是用户数据采集的开始，也是用户价值拓展到整个产品生命周期的关键一环。而通过这三端的运营，京东也希望能超脱流量商人这个渐渐失去吸引力的价值模式，将自己升级为拥有云计算和智能家庭两大金矿的科技企业形象。

当然现在就对以DingDong音箱为代表的语音控制产品的前景做判断为时尚早，毕竟它还有两个关键问题仍是悬疑待解：首先，能否跨越贝索斯划下的那条线？让语音交互的过程真正地像“与人交互”而不是“与机器交互”，这是决定其自然交互体验的一个门槛，也是该产品能否“人性化”的核心问题；其次，Joylink协议内置到家电之中，其成本控制和性能稳定性乃至安全性保障，还有待市场的检验。

关于第二个疑问，此前它已经让大批智能家居行业的先行者折戟于红海；而在第一个疑问方面，京东前不久在第二届亚洲消费电子展（CES Asia 2016）发布了新一代语音交互系统AIUI（人工智能时代的人机交互界面），并推出首次搭载该技术的DingDong智能音箱新品DingDong灵动版。

AIUI的核心是智能化的多轮对话管理和上下文理解，“全双工”的交互模式可以让人机对话时随时打断进行信息补充或者纠错，更接近人与人的沟通。可以说，AIUI采用了另一种方式来解决“贝索斯要求”，它并没有在语音响应时间上强行突破，而是在“多轮对话”上下了工夫。此前，人类跟机器对话的层级基本都停留在一级深度，也就是说，每次对话都是一个完整的问题。例如问SIRI:离我最近的饭馆在哪里？SIRI说500米外的眉州东坡；下一个问题仍然要完整表述：去眉州东坡怎么走？而在多轮对话技术下，这个问题可以直接简化为“怎么走？”还可以一直对话下去，例如问路况如何、帮助打车等等。能够进行多轮对话而非一级深度对话，同样是AI之所以像人的一个重要表现。

京东CTO张晨告诉淼叔，将在8月份推出从AIUI到微联、Joylink协议整体的一个升级服务包，这其中的语音AI除了科大讯飞之外，还引入了微软的深层对话技术（即上文所说的多轮对话）。如此也可以看出，京东正在加强与技术方的合作，努力将互联互通和自然交互技术落实到具体应用中，在融入到用户的场景化使用里。

毕竟，会下棋的人工智能对大多数人来说只是谈资；真正能上手或者“动嘴”尝试，才能让人工智能走下神坛，成为惠及民众生活的新动力。当“对话”这种最为温和自然的方式成为智能家庭沟通的主旋律，顺服的，不仅仅是那些电器吧。
本文转自d1net（转载）

码农公寓

相关文章