功能介绍
只要在天猫精灵上设定指定的时间段,即使主人不在家,天猫精灵也会在家替你看着小猫小狗,把他们在家里玩耍的视频剪辑合成并保存下来。无论996还是007,仍然可以陪伴你的萌宠成长的一点一滴,再也不会工作忙而错过任何精彩瞬间了。
对着天猫精灵CC/CCL说:天猫精灵,打开爱家看护。设定智能摄影的运作时间后,对准家中小猫小狗常常调皮捣蛋的地方,看看会录到什么不可思议的东西吧。
VLog与智能摄影
VLog市场巨大
Vlog的本质是多个短视频的剪辑合成,即围绕着一个中心主题,创作者拍摄多个简短视频,然后剪辑合成一个故事性较强的视频片段。其中体现的也是Vlog的本意,视频日志,记录生活。这样的加法操作,意味着对于创作者的拍摄、剪辑、配乐、脚本和节奏都有一个较高的要求。根据数据显示,2018年的短视频MAU已过5亿,DAU峰值1.6亿,反超综合类视频。在用户习惯方面,短视频的消费习惯已经在国内用户群体中建立,对于Vlog的接受程度会比较高。
智能摄影能干啥?
智能摄影最早可追溯到2017年时曾经掀起一波轰动的Google Clips,号称可以透过广角镜头自动抓拍用户喜欢的画面。只要把Google Clips摆设在家里,用户就不用操心按快门的时机了。
智能摄影之所以掀起一波轰动,是因为它成功击中了用户的几个痛点:
1) 没有时间:现代人忙碌,连家都回不了了,哪有时间帮家里的小猫小狗拍照呢?就算拍下来了,加滤镜、视频剪辑、特效什么的都需要额外的时间。
2)千篇一律:在大部分情况下,“摄影”都是需要摄影者与被摄影者感知的。这导致大家拍出来的照片都差不多,好看的照片不在少数,有趣的内容却往往是意外拍到的。
3)拍摄小动物:小动物的摄影是特别困难的任务,因为它们不会乖乖的不动让你摄影;另外,宠物在人前人后一个样:前一秒还是温驯的小狗,主人出门后立刻变成丧心病狂的二哈。如何拍下小动物的真实面一直是个历史难题。
为了解决上述的用户痛点,我们研发了能在天猫精灵上运行的轻量级智能摄影算法《萌宠大机密》,专注于自动产出宠物短视频,让用户能够不费心思的将自己的萌宠放上VLog平台传播。
智能摄影是怎么做到的?
这背后的算法来自一个有趣的AI研究领域:兴趣度预测(Interestingness Prediction)。与我大淘宝强力的推荐系统类似,兴趣度预测会给每段视频、图像预测一个兴趣分,猜测用户是否会喜欢这些内容。
虽然谷歌发表的文章《Automatic Photography with Google Clips》展现了Google Clips背后的兴趣度预测算法,他的算法体现了几个缺陷,同时也是智能摄影的业界难点:
难点1:大量的专业标注
Google Clips项目雇佣了大量的专业摄影师,并且使用了一种叫做“相对兴趣”的标注策略:给与摄影师两个视频,回答哪一个视频更有趣。项目中对1000多段的段视频做了5000万次的成对标注,这注定了算法的迭代困难与成本高昂。
难点2:缺乏感知能力
Google Clips做兴趣度预测是完全凭借用户兴趣的统计学,并不具备感知能力。换句话说,算法无法告诉你“这条视频里面有一只可爱的小狗,所以我猜你会喜欢。”这不是Google Clips的锅,而是兴趣度预测领域一般的研究思路,但这注定了这款相机无法真正的了解自己究竟干了什么。
相对的,我们的萌宠大机密顺利克服上述量大难点,成功的在商业场景落地、服务用户。
萌宠大机密:概观
目前萌宠大机密算法服务横跨了三大核心功能:内容理解、精彩截取、智能剪辑。
内容理解
由算法中携带的AI感知能力,可以理解每段视频的内容场景并且打标。让AI除了“为什么精彩”之外,还能回答“什么东西精彩”。
精彩截取
透过端+云的智能摄影算法,截取视频中最精彩的部分。这部分仰赖大量内容理解的部分,透过客观的内容感知来提升主观的兴趣预测分数。
智能剪辑
提供智能的视频自动编辑能力,包括:智能倍速,自动合辑、智能配乐等等。搭配各种智能效果,可以让原本万中选一的精彩片段变得更加趣味横生!
萌宠大机密:架构
萌宠大机密采用结合端+云联动的设计:由端计算初筛可能感兴趣的视频内容,上传到云端进行进一步的裁剪合成,如下图:
我们的算法设计有两个优势,高精确度与保障隐私。在精确度方面,透过云端的高清兴趣度预测,可以把视频的兴趣度沿着时间画出精细的曲线,从而把最精彩的部分切割出来、剪辑合成出有趣的输出视频。在保障隐私方面,我们做了三项重点保护:
- 经由端上的粗筛算法,可以屏蔽大量的无关的画面不上传云服务,更不会落盘储存。
- 所有经过云计算的视频数据都会经过用户授权与数据脱敏,避免隐私外泄。
- 最后的视频都是储存在用户的私有云空间。
这个架构中,端上采用的是AI Labs自研的ACE引擎,可以经得起24hr的高效运行。云服务是AI Labs自研的萌宠大机密离线服务,高效高清的算法保证在一小时内可以将上传的零碎视频整合成精彩瞬间输出。
兴趣度预测方式
所谓万变不离其宗,所有AI开发基本上都离不开两个基本问题:数据标注+模型设计。
数据标注
我们从众包采集了大量的宠物视频,并且给众多的标注人员标注其中的有趣时间段。与Google Clips不同,我们的方法采用“绝对兴趣分”,也就是每个视频没有比较基准,凭标注人员自己的标准决定有趣与否。
跟“相对兴趣分”比起来,“绝对兴趣分”需要的标注数据较少,但是较容易受主观影响。因此我们每个视频至少要求10个标注人员标注,避免主观的标注影响训练结果。当数据规模大的时候,绝对兴趣分既能保证数据标注的客观性,又能保证标注量级维持在线性增长速度内。
因为每条视频会经过多人的标注,所以我们可以统计出一条兴趣度曲线。并以这条兴趣度曲线作为我们的兴趣的真实标注。如下图所示:
模型训练:端计算
从前面的算法概观图中可以看出,端上算法将固定时长的视频作为输入,并且输入至一个粗筛模型中预测兴趣度、是否包含宠物,并决定是否进一步上传。因此端上的问题实际上是一个二分类问题:是否包含宠物且精彩。
为了让萌宠大机密算法能够知道自己到底看到了什么,回答这个视频的精彩理由,我们在算法中加入了感知模块:对逐帧的图像打标,得知每一帧里面的是否有猫、狗、人物、以及大致的位置。训练流程大约如下图:
如图中所示,逐帧图像打标的输出会变成兴趣度预测模型的一部分输入。兴趣度预测模型以逐帧的特征与打标结果为输入,并根据兴趣分的标注结果计算损失函数。透过这种设计,可以确保算法模型在预测视频内容的同时能够知道视频里面包含了什么内容,例如是否有宠物。
模型训练:云计算
云上的模型与端上差不多,但是有几点不可忽视的差异:
1) 模型表述能力:云端比设备端拥有更多、更弹性的算力与内存,可以部署感知能力更强、FLOPs更高的模型。透过端上替云端去掉大量的视频源,云端可以使用更复杂的模型,同时服务更多的客户。
2)视频融合能力:端上的上传视频是固定时长的视频,云端算法在处理时必须遍历同个用户同个设备的临近时间段视频,并且把多个视频融合、切割成新的频输出。
为了实现视频融合能力,云端模型在最上层加入了时序预测模型:对每一帧都输出一个兴趣度分,进而对一个视频输出一个完整的兴趣度曲线。
3)视频剪辑能力:每个视频都得出各自的兴趣度曲线后,就可以透过时域分割方法进行剪辑,得到最终的精彩视频了!
不只是摄影
成果演示
目前萌宠大机密支持的摄影对象仅包含猫、狗,其它宠物我们后续也在不断丰富中。