演讲嘉宾简介: 阿里文娱核心系统部负责人——心石
以下内容根据演讲视频以及PPT整理而成。
本次分享主要围绕以下两个方面:
一、新趋势
二、技术布局
一、新趋势
文娱视频技术探索和5G机会点
优酷主要提供剧集、综艺、电影、动漫品类的长视频,同时包含资讯、纪实、文化财经、时尚生活、音乐、体育、游戏和自频道品类,业务形态包括会员、直播、VR、家庭娱乐和经济业务,是一个综合的视频平台,服务于视频消费业务场景。
5G的基础建设和运营商推进5G应用
5G技术的主要特征:高速率、低延时和多连接,相较于4G,达到了质的变化。从应用层来看,5G的速率是4G的10倍以上,可达到20Gbps,时延降低10倍,连接数密度增量式增长,可提高10倍。5G在工业自动化、自动化驾驶车辆应用较多,同时在视频消费,3D、4D视频和超高清屏幕,是极为确定的应用,优酷在5G时代来临前,做了一些思考和探索。
聚焦5G+AI构建新文娱消费体验
将从消费侧的新玩法、新形式、新体验和生产侧的视频数量和处理速率新要求两个部分讲述。
消费侧侧重于5G下音视频体验升级,信息密度即带宽高后带给消费者在超高清、播放能力、立体视觉的体验。优酷基于对超高清的理解,在画质、声音、高帧等方面,做了自己的帧享平台。随着速度的提升和连接时延的降低,播放能力全面升级,增加交互体验。上行通路打通后,2D和平面式消费不能满足用户的需求,转向立体,具体包括AR、VR以及6DoF观看。
生产侧借助AI助力,快速有效的生产视频,通过AI理解,多维度加工视频,产生二次创造的有趣素材。AI助力的部分包括多模态搜索能力(以往通过文字搜索,后续可能会增加图片、语音,多模态的搜索视频)、基于用户兴趣的推荐系统(对视频有效组织)、基于素材解构的视频智能生产(素材结构和语义理解,对视频进行二次加工,例如生成片花、封面、梗概,以往借助人工,效率较低,借助和AI和算法的帮助,快速生产,满足5G下信息量暴涨和通路拓宽的要求)、视频质量主观体验提升(清晰度感受不够好的视频,物理条件满足,但主观质量并没有得到提升,可借助AI整体校准,保证在高信息通路下,给用户提供的不仅仅是物理质量较高的视频,同时主观质量极高)
5G时代的内容趋势
5G时代的内容趋势和5G的三个技术提升息息相关。视觉体验提供的是更高信息密度的诉求,不论是4K、60FPS和HDR 10bit,均来源于5G下高带宽,高信息密度的技术特征。交互形式上,互动形态更丰富,包括3D视频、游戏化和内容互动,主要源于低延时、高在线的特征。5G高连接数催生新的内容形态,例如AR、VR和 6DoF。
二、技术布局
阿里文娱在5G背景下的技术布局
第一部分是普惠的超高清视频体验,设备不同,设备呈现视频的能力不同,用户在5G网络下的视频观看体验是不同的。带给设备不同或环境组成不同的用户超高清体验,即“每一帧,都享受”,阿里将此技术方案称为“帧享”。窄带高清2.0在不降低视频质量的同时,大幅度降低带宽占用,接下来迭代出窄带高清3.0,在保证用户享受超高清画质时,再减少30%流量线。第二部分是机器视觉加持下互动新形态,包含新互动场景的尝试,互动弹幕、游戏化等产品技术探索。第三部分是新交互到云渲染,包括播放交互能力的技术创新以及边缘计算对6DoF、VR/AR视频及视频云渲染的思考。
5G下最确定的应用场景是超高清,是否能呈现出用户脑海中的超高清视频,例如视频编码、后期处理、前期制作、拍摄设备、存储和再加工,这些元素在方方面面影响着超高清的呈现。高帧率,超高分辨率,HDR,环绕音效,这些技术上的指标是远远不够的。糟糕的拍摄设备或者前期制作,即使视频达到了技术上的指标,但整体效果体验并没有达到。
全链条的掌控是保障高品质视频消费体验的基础
消费者看到的是一个高帧率、高分辨率的音频处理和解码效果,实际上从生产侧到消费者侧,有多个环节和多个工作需要完成。首先源头是拍摄,包括器材和现场管理,以保证毛片素材的质量。之后是制作,调色过程中,优酷根据市场上不同设备的屏幕,做颜色的校准,校准信息会传送到后续环节中,在解码时根据消费者的屏幕进行不同的调制和还原,从而保证不同的设备呈现的色彩效果基本一致。较好的剪辑和音频算法和格式应用在制作过程中,阐释还原不同的音轨以及算法的推演和模拟都是混音重要的组成部分。制作环节后,进入成片介质的阶段,即载入分发的视频平台。信息数较大的原始介质,将被重新绘制,转化为不同的格式和有效编码,降低整体的空间占有率,将规模化分发下的体验和成本做到极致。依赖高效的计算平台,不论是编码本身还是后期制作,成片都能得到高效的处理。生产环节后,得到可直接被分发的视频流,线上分发的视频流,依赖有效资源调度和传输协议,终端模块捕获后解码和渲染。整个全链条的掌控,才能带给消费者一个高品质的视频体验,每个环节都需要技术加持。
AR特效广告植入系统
超高清是5G时代确定的应用场景,阿里、腾讯等都在探索这个业务。带宽高意味着需提供更多的视频,对大数据量的视频有效后期处理,例如老片从低分辨率翻新为高分辨率,是待解决的技术问题,各大视频服务网站均在探索的方向(同一时间内,能够处理高清视频的数量)。
例如在医院场景下,点位系统捕获白墙,框出一个区域后,进行多模态视频解构,解构后将区域录入特效系统中,特效系统根据已有的模板定制,此时墙上出现一个广告,有趣的同时并不干扰原先的视频。
首先云端会对视频进行AI训练和输入区域热度算法模型,训练完成后平滑处理并存储。客户端的传感器捕获用户的播放和手势变化并请求服务器,根据所处的帧位和用户的手势,将训练的数据和手势融为一体下发到客户端,客户端渲染引擎根据帧定位和播放完成整个AR过程。例如在这就是街舞2,通过现场的拍摄设备布局,结合算法的逻辑处理,呈现出旋转的效果。目前,优酷在做6DoF视频观看到可交互的探索,用户滑动屏幕,与视频交互,定帧后,可左右旋转,放大缩小。
在对视频有一定的理解后,可进行包括区域的定位,AR的植入,商品的购买,串联整体链路。区别于仅仅观看交互的体验,将更进一步,在观看的过程中,通过AR的技术,关联其他的业务。
播放端通过安全分发服务,从CDN节点获取素材(可播放的视频),在5G的基建下,边缘节点的计算能力得到放大,CDN获取的静态视频,经过边缘节点的计算和存储,增加交互(商品购买、拖拉拽交互),边缘节点距离用户近,在交互频繁的时候,用户得到的反馈及时,整体体验提升。播放段与视频进行交互行为时,调度中心会返回距离用户最近的边缘节点。边缘节点具备一定计算能力,当播放端需交互时,边缘节点将计算的结果返回给播放端,播放端根据计算结果,持续的从CDN节点拉取后续分支视频,构成整体的链路组合。相较于以往仅仅看视频,加入高互动的环节。
生产侧AI技术
AI技术提高视频的生产效率,催生不同视频生成的业务形态。NLP和ASR技术用于语义理解以及风险排除。图像分类技术用于风险标识(涉黄涉暴视频)。目标检测技术用于人脸检测和小物品检测。视频指纹技术用于识别视频排除重复视频、视频版权问题。视频语义理解技术可有效理解视频,用于规整分类同类视频。
视频内容结构
如下图,图片的中心是视频,包括视频标签(用于定位视频的类型),视频指纹(算法拆分视频),视频质量(质量高还是低以及主观质量)。外围区将视频分为图像和音频两部分,图像被拆分为单帧和镜头,单帧中可定位区域,包括人体识别、人脸属性、OCR和LOGO检测等。镜头包括物体跟踪、人脸跟踪、实体分割、镜头识别和景别识别。音频部分包括来源即BGM识别以及ASR和音频指纹。通过方方面面算法的处理和视频的结构,对视频本身有更深的理解,结合业务场景可以进一步的处理和再组织。
基础素材自动化生产与检索
智能检索,可根据人物本身的动作和角色的表情定位节目的剧情、场景、台词。例如通过搜索红海行动枪战,能够检索到枪战的视频。精细化抠图中,精细化定位视频中任务的动态过程。Shot级别素材打点,检索出现的人物、场景、动作。检索的结果可用于封面或小视频的创作。
封面图自动化生产
多维度自动化选图:根据后台的模板,产生基于人物、场景的截图。从截图中选出例如CP互动、任务表情、典型场景和动作的GIF图片。亦可根据美学评级,自动化生成封面,提升了整体自动化效率,以往需要资深的运营人员,人工组织。
实现素材和内容的统一个性化分发
不同用户的喜好不同,结合用户喜好,推荐满足美观、精准、提效的标准的视频。首先从原始视频中抽取视频帧,根据用户观看停顿、弹幕的高潮点和深度学习标注,选出有吸引力的帧画面。之后进行图像质量判断,通过计算机视觉手段过滤模糊、曝光不正等低质量的图片。然后结合计算机视觉和美学对图片进行长宽比、缩放调整和拼接。接下来进行元素级别的分析,计算图像中用户决策的关键信息,如人脸、场景、事件、情感等。最后是个性化素材分发,根据用户的喜好和兴趣分发素材(例如喜欢动作戏或感情戏的观众,看到的是不同的素材)。
模板式视频半自动化生产
BGM卡点剪辑,根据BGM的节奏,选择视频,契合BGM的卡点。整个过程首先会进行BGM卡点分析,选择不同的剪辑模板(例如燃炸裂、虐心、甜蜜、搞笑、古风),模板之后,中间剪辑合成处理,包括个性化logo,消除字幕/歌词,然后针对视频的高潮增加一些动态特效,收尾时增加片头片尾的艺术特效。以往,是一件较为花费心力的视频,模板化后整体效率得到提升,但第一次一般需要专业编辑人员确定节奏、旋律。前情概要生成,目前可借助模板半自动化生成。视频形态转换,例如竖屏视频转化为横屏视频,以往较为困难,有了主体定位和切割技术,不仅可以保证视频的产品形态符合要求,亦可以保证视频质量。
视频消费场景下,信息通路提高可呈现超高清的视频;5G低延时的特点催生新的交互行为和交互方式;高密度连接,即集中的场所连接更多的设备数,结合低时延的特点,呈现出区域性高密度的互动方式,才会产生面对面的多人AR+VR的内容形态。其他的业务场景,思考5G带来的趋势,也应该从这三个方面思考。