阿里云视频技术专家柿蒂：视频AI in传媒九大业务场景解析

2022-05-03 22:33:03

近日，BIRTV 视觉人工智能峰会在北京国际饭店隆重举办。阿里云视频技术专家柿蒂受邀参加，围绕人工智能这一主题，在视觉计算与传媒领域的应用进行深度分享。

阿里云视频技术专家　柿蒂

人工智能在视频领域的应用

阿里云拥有强大的云计算能力与大数据计算引擎，因此，人工智能也就拥有了飞速发展的沃土。那人工智能视觉计算和视频融合在一起，又能摩擦出怎样的火花呢？柿蒂提到，如同下图所示，人工智能视觉计算可以支持直播、短视频、新闻、体育、影视等多种业务场景，可以实现目标检测识别识、片段侦测、事件识别、鉴黄涉恐、OCR等多种应用层面的功能。

从技术角度来讲，基于业界领先的人工智能技术，阿里云可对视频的内容、文字、语音、人脸、物体进行多维度分析理解，帮助视频类、资讯类等客户实现视频分类和打标签、视频指纹、相似性计算、视频安全审核、视频质量计算、自动生成封面图、视频切片化等能力。从而帮助客户提升用户留存和体验，同时提高数据处理能力，降低人工审核成本。

人工智能在视频领域的应用至少包括以下四个大方面：

1、视频内容分析： 行业领先，基于阿里领先的人工智能技术，对视频进行语音、文字、人脸、物体、场景多维度分析，输出视频泛标签，提升搜索推荐效果。
2、视频封面选图： 通过对视频内容的理解，并结合画面美学，选出最优的关键帧或关键片段作为视频封面图。
3、视频指纹： 提取视频中的音频、图像及时序特征，生成视频指纹，通过视频指纹的比对，实现重复视频查找、视频片段的源视频查找等业务功能。可应用于视频去重、侵权视频过滤、原创视频保护等领域。
4、视频内容审核： 基于深度学习技术和海量数据，智能识别色情、暴恐、广告、涉政等视频或图片，极大节省人工审计成本，降低违规风险。

传媒九大业务场景深入解读

传媒，是人工智能视觉计算的典型应用领域，下面，柿蒂选取了传媒的九大热门业务场景，分享了在每一个业务场景中的视觉计算是如何应用的。

业务场景一：自动内容审核

采用基于深度学习的图像分类方法，利用高召回+高精度的级联结构，同时采用人脸识别、OCR、ASR等技术，对音视频中的违禁内容进行审核。
侧重：UGC视频侧重鉴黄、涉暴等；PGC及台内存量视频侧重涉政。

业务场景二：视频摘要-自动关键帧

通过对视频进行结构化分析，对关键帧、视频镜头进行筛选和排序，选择最优的关键帧、关键片段来作为视频的展示。并采用关键帧提取+MMR优化+美学评分等方法，选择视频，用以形成视频摘要，方便用户浏览。
效果：人工评测原始与封面关键帧算法（仅评测可对比出优劣之分的数据）：算法优，占比超过70%

业务场景三：自动拆条

多模态：视频特征、ASR、OCR、人脸、Motion等
可以应用在：

新闻消息类节目的条目拆分（可播前进行，无须文稿）
体育赛事的自动场记
综艺类节目的曲目裁剪及精彩段落生成
PGC直播的快速集锦
节目内容热点发现

业务场景四：语音处理

语音转文本：新闻资讯/会议/影视剧制作
语音对齐：将已有的口播稿按稿件句子自动识别时码，与稿件文本对齐
实时字幕：直播或存量视频中，将语音内容转成文本并做实时字幕处理
语音检索：检索节目或素材的语音内容
新闻热线电话/客服：智能质检、智能问答
自动拆条、视频、内容审核等：与视频相结合
知名主持人、明星语音合成：增加互动体验

业务场景五：OCR

利用视频结构化分析和图片识别等技术关键点，进行OCR识别处理。
可以应用在：

视频文本摘要的参考：新闻类视频
台词提取及时码对齐：电影电视剧（可结合语音处理）
演职员表

业务场景六：视频去重/检测/关联

利用视频指纹技术，判断两个视频是否是通过任意变换获取的同源视频，以及同源相似度。可以应用在：

UGC、PGC视频的去重
广告检测
短视频搜索
基于视频内容的关联

业务场景七：视频分类、视频标签

视频分类是通过内容理解的方法对视频进行类目和标签预测；视频标签则是通过对视频中多模态信息进行分析，自动为视频进行标签标注，并利用图像分类技术、视频tagging技术、OCR、ASR、人脸识别、目标检测、行为识别等多模态技术分析，对视频进行自动标签化。

业务场景八：目标检测

直播互动：主播手势交互、取代人工，由机器自动生成事件发生的时间点及事件类别
物体动态锚点跟踪：支持用户对视频内容中的物体进行标记并跟踪。
边看边买：在视频中匹配和搜索同款/相似/相关商品，为视频电商的边看边买提供自动选品技术，同时利用用户在淘宝、天猫的用户行为进行边看边买商品的个性化推荐。

业务场景九：体育分析

视频打标：取代人工，由机器自动生成事件发生的时间点及事件类别
集锦生成：根据打标信息自动生成比赛场景、球员集锦
比赛转播：自动完成镜头切换、远近景切换，球员特写
球员数据信息获取：跟踪球员轨迹、获取球员在全场比赛中的位置，跑动数据

在分享的最后，柿蒂将所有阿里云AI+视频的能力做了整体展示，他也表示，在未来，阿里云持续探究AI+视频技术，并且将更多优秀的能力开放给行业。