AI“再造”李佳琦

下午3点到7点选品,直播间被设在住所的客厅,7点从公司回家,晚上8点15分开始直播,夜里12点下播,和同事复盘当天的情况,然后吃宵夜,直到凌晨4点才能躺下。

 

这是李佳琦的日程表。

 

根据《人物》杂志2019年9月报道,2017年6月到上海后,李佳琦就一直过着这样的生活。他曾创下一年389场直播的纪录。

 

估计,能打败“拼命三郎”李佳琦的,只有AI了。

 

今年双11,阿里首次让AI虚拟主播大规模上岗,让他们在真人主播休息时,直播带货,提高转化率。

 

淘宝主播林珊珊团队运营负责人凌霄,最初收到虚拟主播产品的试用邀请时,心里是拒绝的。这个产品有真人那么能种草吗?但虚拟主播第一场直播就出乎他的意料,15万播放量,粉丝也涨了不少,“简直就是白捡了这么多粉丝”。他们做的,只是在前一天晚上下播前一键开启了“虚拟主播”按钮。

 

今年双11期间,晚上12点到凌晨8点,你很可能会在欧莱雅、自然堂、三只松鼠、美的、格力等近百个头部商家的直播间见到这些虚拟主播。

 

它们都是3D动画人物,长得非常可爱,有多种不同风格的形象,声音、情绪、动作逼近真人。它们会跟你打招呼,给你介绍商品,求你加关注。还会撒娇、跳舞、Rap,完成各种复杂动作,也能让商家在梦里把钱赚了。

 

虚拟主播产品上线至今,已经直播数千场。这很可能只是一个巨大风口的开始。



 

1


 

五年前,淘宝直播横空出世,掀起电商直播风。

 

2018年,抖音、快手开始布局直播电商业务,为新业态的快速发展再添一把火。此后,更多电商及内容平台相继入局,直播电商迎来爆发期。

 

2020年新冠疫情爆发,使直播电商再迎来又一次突飞猛进的发展。

 

电商直播行业一片欣欣向荣景象。

 

但好主播数量少、招聘难、主播培养成本高,人才缺口大,依旧是行业性难题。

 

有意愿、但没有能力开播的商家比比皆是,已经开播的商家开播时长有限。

 

中国最大的电子商务平台阿里巴巴上入驻了数以千万计的商家,但开播的商家仅占很小的比例。据悉,淘宝直播已将2020年GMV目标上调至5000亿元,参与直播的商家数量正快速飙升,但由于招聘主播门槛较高,与极为庞大的总基数相比,渗透率仍较低。

 

帮助商家解决开播问题,对电商巨头来说,不可谓不迫切。

 

今年3月,阿里给出解决方案:AI虚拟主播。


商家只需在淘宝主播后台选择主播角色,优化及确认剧本内容,即可让虚拟主播上线开播。


AI“再造”李佳琦

 



2

 


虚拟主播的诞生并不容易。

 

提出“虚拟主播”这一设想的,是达摩院旗下智能服务事业部。这个团队曾隶属于阿里集团客户服务事业部,缔造了阿里第一代To B端客服机器人——小蜜家族。

 

该事业部负责人空无在今年春节后就与团队里的算法专家海青规划,想面向直播场景、推出一款AI产品。

AI“再造”李佳琦

  • 空无和小蜜

不过,他们提出虚拟主播的想法、争取立项时,遭到很多质疑:这个产品能为直播业务创造什么样的价值?想象中很美好的虚拟主播,技术上能否实现?

 

但他们坚信,直播间智能化是未来的趋势。直播,在视频场景下有图像、语音和文本,多模态技术在构建“虚拟主播”上大有可为。

 

从2013年左右,深度学习技术在众多领域开始应用,推动了语音、语言处理和计算机视觉等单一模态领域的巨大进步,但跨模态的AI应用场景仍是业界难题。

 

成立三年的达摩院在机器智能、图像智能、NLP、语音合成等单模态领域均有技术积累和研究成果,且在多模态领域有所积累,这才使得虚拟主播的产品形态成为可能。


 

 

3

 


不做则已,做则至全。

 

虚拟主播要实现数据驱动和实时渲染,也就是说,虚拟主播在不同场景中要讲什么话,使用什么样的情绪和语音语调,匹配什么样的动作,均由AI决定。

 

仅仅实现虚拟主播上播这一个小目标,他们至少得做三件事:构建虚拟主播的3D形象,根据直播场景定制TTS,打造高准确度、高顺滑度的商品直播剧本。

 

这不是一个团队可以完成的,必须拉其他兄弟部门“入伙”,组成专业的多模态团队,共同打造面向直播场景的AI技术。

 

海青找上此前有过合作的大总和启磐。

 

大总是达摩院语音实验室的算法专家,在语音领域已经有12年沉淀。达摩院语音团队2014年底组建,过去六年间,与店小蜜团队有很多合作。

 

启磐是达摩院视觉实验室的算法专家,擅长图形图像和3D建模,他们团队一直在做视觉理解、三维建模相关技术研究及落地。手机淘宝里的“拍立淘”、“直播看点”、“直播标签”等功能均应用了他所在团队的技术。

 

启磐对直播充满兴趣,经常逛直播间,发现一些空直播间也在卖货。


听到“虚拟主播”项目时,尽管团队还有别的项目,他立马表示认可并加入,“用AI做直播,肯定比空直播间、放静态图片的直播间强不少。”

 



4


 

2020年4月,“战队”组建完毕后,虚拟主播在阿里内部被列为重要的创新项目,它还被赋予一个特殊的代号——“无人区战役”。

 

这场研发是与时间赛跑的过程。项目团队给自己立下军令状:6月30号之前,搭建好虚拟主播的基建平台,做出虚拟主播的形象,能够进行商品播报,亦能与粉丝互动。

 

其中涉及到许多技术难点:

 

1.利用NLP(自然语言理解)技术自动挖掘店铺及商品信息,自动生成语言流畅、高准确度的剧本;

 

2.利用语音合成技术实时生成不呆板、有情感的语音效果;

 

3.利用多模态技术,实现虚拟人驱动。比如,基于意图和情感分析,根据文字或语音输出与之搭配的动作效果,如虚拟主播面部表情、肢体动作如何变化;

 

4.要实现虚拟主播与粉丝的互动,进行基于情感和意图,边跳舞、边回答问题、并且还维持直播流程这样的多模态展示,这涉及到跨模态输入输出。

 

搭建出demo后,还需要快速地进行市场验证、不断迭代。

 

每一个环节的实现都非易事。

 

三个团队此前均是视觉、语音、NLP三个单模态领域的佼佼者,但多模态技术于他们大多数而言是新东西,需一步步探索。

 



5


 

虚拟主播要想带好货,离不开几个能力:商品折扣、专业能力、话术等等。而这与常规的录音定制、语音合成大有不同。

 

虽然达摩院之前在语音合成技术方面有很深的积累,仅仅上线两年的KAN-TTS(Knowledge-Aware Neural Text To Speech)模型已经逼近真人水平,但在虚拟主播的场景下,还是面临不少挑战。

 

常规的声音定制流程是给到标准录音文案,邀请对应发音人去录音棚录制音频,再进行标注和模型训练调参。

 

但主播的发音习惯及话术,跟传统的语音合成不同。例如李佳琦、薇娅等拥有高超营销能力的头牌主播的话术,在传统的独白里是没有的。他们的语气、口头禅会对直播带货产生直接影响。李佳琦一句“OMG,买它!”、“OMG,今年的大促活动也太划算了吧”,对消费者有很强的亲和力和感染力,这些在传统的独白里也是缺失的。

 

为了使虚拟主播的口播更贴近真人主播,大总团队反复修改基础语音语料的文本,逐字设计文案。

 

一些主播在宣传自己商品的时候,会加入语气词(如“诶、咦”等)、情绪词(如OMG等)、思考的停顿(如“嗯,啊,哦”等)、“呜呜呜”“啊呜呜呜”等表示遗憾或者愧疚的句子。他们也会专门去优化这些词和句子,以使最终合成的语音效果凸显虚拟主播的拟人化人格。比如,在缺货的时候,虚拟主播可能会撒娇,“抱歉抱歉,没有货了”。

 

为了让虚拟主播的声音更有表现力,他们将TTS技术根据直播场景做了抑扬顿挫的处理,包括对断句、语音语调的调整。

 

他们甚至到录音棚里驻场,跟录音人强调,“你应该用怎样的情绪去念这个”,“应该在哪些文字上表现得更加激昂”,“应该在哪些文字上表现得更加平淡”。

 

每个人的声音特质不同,外在也不同。虚拟主播也应如此。为了让每个主播看起来更加个性化,启磐团队研发了3D建模功能。只需输入一张主播的二维照片,即可输出给其一个三维的虚拟形象。这其中涉及两次跨模态:从真人空间到虚拟空间,从二维空间到三维空间。

 

为了让虚拟主播在视觉呈现上更拟人,项目团队还实现了真人复刻的能力,可以用普通的RGB摄像头实时捕捉理解真人肢体动作和面部表情,直接复制到3D卡通形象上。与业界动补设备+传感器的方案相比,成本大幅下降。


要让虚拟主播展现出适合情景的肢体动作和声音,则需要构建基于大数据实时分析意图和情感的决策能力。机器需要具备与人类接近的自然语言处理能力,在“理解”直播剧本内容后,通过分析、决策、运动体系,再做出相应的语音输出和肢体动作。


为了让虚拟主播表现得更加机灵,项目团队用多模态技术赋予其智能问答能力。当有人在直播间问虚拟主播,正在售卖的化妆品“是否适合油皮?”虚拟主播理解问题后,会综合商品库里的商品标题、图片、用户评论等多模态内容,在直播时给出个性化的实时语音回复,并搭配合适的肢体动作和表情。

 



6


 

7月初,鏖战三个月后,虚拟主播1.0版本问世。项目团队第一次得到“要加快落地探索”的正向反馈。

 

此后,不断有内部业务、商家业务找来,表示想用虚拟主播开播。天猫美妆的主题活动邀请了虚拟主播坐镇,淘宝造物节也开了个直播间由虚拟主播介绍108件奇宝(宝贝)。淘宝直播也邀请了更多商家参与内测。

但项目团队没有沉浸在短暂的快感中,而是不断迭代语音、形象、剧本各功能模块。因为虚拟主播是纯粹用AI技术打造的,需要通过不断的数据积累、算法迭代,才能表现得更好。

 

现在的虚拟主播,能和观众闲聊,也能实时解答他们对商品的疑问;能在观众@它播报某款商品时,进行播报;也能在喊出“OMG”这样的口头禅时,配合展现相应的嘴型、表情和肢体语言动作,并表露出惊讶的神态。

 

它们也能与观众进行互动。虚拟主播产品经理剑熏介绍,虚拟主播会在观众打招呼时,抬起自己的手say hi;播报商品A时,把手指向商品A的卡片;引导粉丝点赞时,手指向点赞的位置;引导粉丝“快快下单”时,手会噔噔两下,让观众看出它的急切;讲特别开心的事情时,配上微笑的表情。

 

不过,相比极具想象力的市场前景,淘宝虚拟主播的技术与产品尽管已初步成型,但现在还远未进化到终极形态。

双11是阿里新技术一年一度的阅兵场,虚拟主播作为新晋考生,也需要接受市场检阅,靠数据说话。



7


 

挺过这一波,阿里AI虚拟主播还有更多挑战要面对。

 

同一时期,虚拟主播、虚拟偶像上岗“营业”,在电商圈、娱乐圈渐成趋势。“一禅小和尚”和“萌芽熊”这2个知名二次元IP已在快手上尝试虚拟直播。今年4月,虚拟偶像“洛天依”做客李佳琦直播间。5月和9月,虚拟偶像“默默酱”、二次元抖音美食博主“我是不白吃”在抖音直播间带货。

 

淘宝虚拟主播同样需要不断迭代形象与技术,与时俱进。

 

5年前,淘宝直播出现时,没有人会想到,一个人人可播、万物可播、处处可播的时代从此开启。

 

《迈向万亿市场的直播电商》报告显示,2019年,直播电商市场规模达4338亿元;2020年,将破1万亿元。

 

现在,虚拟直播又推开了一扇窗,这次将会营造多大的天地,也许得数年后才能知晓。

 

 

参考:《薇娅最好是AI》


原文:杭派工程师:https://mp.weixin.qq.com/s/-dpQoDqi_7iL0lBHpshdRw

上一篇:重塑双11技术引擎 阿里落地全球最大规模云原生实践


下一篇:集合的其他内容