独家丨慧川智能发布首款视频理解API，要让AI真正取代“剪片子”的人类？

2022-02-13 10:44:57

慧川智能CEO：康洪文

在今日由中国计算机学会（CCF）主办，雷锋网和香港中文大学（深圳）承办第二届CCF-GAIR全球人工智能与机器人峰会的AI+专场上，慧川智能CEO康洪文在给大家带来“AI(爱）让视频更简单”的主题演讲的同时，也重磅首发了一款新的视频内容理解的API产品：智影·视频理解API。

据康洪文介绍，这款API可利用深度学习技术，对一段完整输入的视频中所涵盖的图像和视频流进行模式识别、拆解和结构化，从而对视频内容实现精确到每一帧的处理。

康洪文向雷锋网(公众号：雷锋网)表示，智影·视频理解API目前已向第三方开发者、媒体、内容制造者等群体开放使用。值得注意的是，该款API还有一个重要意义在于，可实现视频内容的结构化。所以，这款API的开放在当前视频内容理解相对处于空白状态下来看，颇具意义。

又一个从学术界走向产业界

左：慧川智能创始人康洪文右：CMU大学计算机科学和机器人研究所教授金出武雄

说起慧川智能的初创团队，其实也有点意思：创始人康洪文，CMU博士，曾在微软研究院工作，研究方向主要为AI及视频理解；CTO黄健，宾州州立大学博士，曾与康洪文同为微软研究院同事，此前曾在Google工作，研究方向为NLP和机器学习；首席架构师刘曦，与康洪文同为CMU博士，曾在Conviva工作，研究方向主要为云计算和视频大数据。

CMU作为计算机排名世界第一的学府，已经给学术界和产业界输送了非常多优秀的人才。像计算机视觉鼻祖金出武雄，现任微软全球执行副总裁的沈向洋等，皆来自于此。巧合的在于，康洪文在CMU和微软都有分别“师从”金出武雄和沈向洋的经历。

除去这些光彩的“缘分”，还得一提的是，2015年，三位初创成员就已有过一段与视频AI处理相关的创业经历。两年过后，康洪文、黄健和刘曦又因为一些行业态势走在了一起，开启了二次创业。

“目前短视频非常火”

“就视频而言，90%的功劳归属于创意，只有5%有赖于'体力'。很多人就是被这些5%的体力给牵制住了。”康洪文向雷锋网如此说道。

了解到这一行业现象，一与康洪文研究方向和从业经历有关，二则是与湖南卫视的合作让其对此深有体会。往往一档大型综艺节目，一个小时的视频，背后往往需要上千个小时的幕后剪辑工作。康洪文发现，在这里边，其实有很多繁琐的工作是完全可以依赖机器来完成的，并且机器的速度和效果会更快更好。

于是，康洪文开始和湖南卫视、浙江卫视等有了合作，帮他们做了一些简化工作流程的系统和产品。而智影正是在这些系统之上衍生出来的一款AI产品。

不过，这还不够。

“目前短视频非常火”，康洪文有点兴奋。

暂不提月活用户已超20亿的Facebook，单就国内而言，网络视频活跃用户已达5.5亿。微信每天产出100万篇以上的公号文章，其中就有67%的内容适合生成视频。而随着机器学习、CV和NLP应用的不断拓展，用户正慢慢从图像、文字转向视频和短视频使用，大家越来越依赖大信息量的视频内容。

从这一行业大趋上来看，短视频终将爆发不是没有道理。然而，AI业界对文本、图像的处理技术和算法已渐趋成熟，但对视频信息的理解却暂时处于空白状态。业内甚至有人认为“视频是一种暗物质”，机器无法知道视频里究竟有哪些内容，或者视频之间有哪些联系。“它们占了全网90%的存储空间，然而这种结构化的数据却完全没有。”

市场的痛点就此形成。这一切都让一直深耕在CV领域的康洪文感觉到，既是挑战，也是机遇。

2分钟视频，人力4小时剪辑、机器只要30s，效果一样，如何做到？

康洪文给雷锋网列了这样一项数值，2分钟的视频，人类需要花费4小时在素材的收集、剪辑和渲染上，直至整个视频出炉，而智影可在30s内自动生成这段视频并达到相同的效果。

如何实现？

智能视频技术的学术积累

在1990年以前，学术业界开始有了一些关于视频合成技术和物体检测识别的讨论和研究。2000年以后，特别是2005年左右，整个学术业界开始泛起了对视频合成，视频内容理解的研究。据Google学术查阅的资料表明，在2005年以前，关于视频内容理解这一项就有4530条结果的收录。近十年来，这一学术搜索结果已增至17000条。同理，视频合成、物体检测识别、机器学习和NLP的理论研究也正如大家感受到的一样呈井喷态势。

这些学术研究成果确实给AI业界的创业者们搭起了架子。

视频数据结构化的优势

此外，托赖初创团队在CMU的学术研究成果，以及在Facebook、微软、Google等科技巨擘的从业经历，慧川智能可以从各个公开的数据源里获得全网的数据，并借助自身AI算法的积累对其进行内容结构化的处理。

据康洪文介绍，慧川智能在此其中还实现了一项新的Research成果，也是今日康洪文在CCF-GAIR 2017会场上发布的重头戏：根据输入的一段完整视频，机器能够利用深度学习对其涵盖的图像和视频流进行模式识别，拆解和结构化，从而对视频内容实现精确到每一帧的处理。比如，在20-40帧出现了一辆兰博基尼汽车，在60-95帧出现了一段两个人在对话。之后，从100-120帧，是一辆商务客机滑行出来直至结束......

这种算法可帮助机器很好的理解视频内容，从而实现更高精确度的视频的智能化处理。

所以，在数据结构化相对空白的行业态势下，相较其他公司而言，这点算是慧川智能的一大优势。

背后的CV、NLP、机器学习

不过，视频数据结构化只能算是关键助力剂的一种，让智影做到如上小标题的成绩依然离不开架构在智影背后的机器学习、CV、NLP和信息检索贡献。

具体的运行原理可看这张图：

据康洪文介绍，智影的运行流程有以下4步：

· 文本分析

· 素材匹配

· 在线剪辑、预览

· 云端视频渲染

其中关键的基础步骤在前面2个。在一个拥有足量信息和内容的数据库里，当一篇文章被上传到机器里，在NLP和机器学习的帮助下，机器会先对其进行文本分析，抓取文本中的如时间、地点、人物、事件等关键要素，并予以理解。接续，机器会进入“素材匹配”阶段。因为这些素材本身是不带标签信息的，所以系统需要进入其中找到这些相关信息。比如，在全网所有的图片、社交媒体、视频片段和原声广告中，将某个特定的人出现的场景都截取出来，这其中就需要CV的助力。完成了两项最基础也最难的工作之外，机器就能接续实现在线剪辑、预览和渲染，直至生成整个视频。当然，整个过程都免不了机器学习的支持。

“相对其他公司来说，智影这款API产品在物体识别的范围、种类、精度和稳健性上都算是最领先的。”康洪文颇有底气的如此表述。

内容视频化会给未来产业结构带来哪些影响？

当问及这个问题时，康洪文向雷锋网表示，这是一个很大的问题。

“它应该会带来整个产业结构的改变。”康洪文拿Google举了个例子。

Google之所以能成为Google，一大原因在于其对文本的结构化处理的能力。以Google Search为核心，在其周围还有Index技术、Adwords业务等，所有这些都建立在对文本的深度理解之上。

然而，随着用户越来越依赖大信息量的视频内容，并逐渐习惯短视频对文本和图像的取代，在目前视频内容暂时还缺失结构化方案的过渡阶段，在行业发展到一定程度之后，必然会产生一类对视频内容提供结构化或标准化处理的方案商公司。

而这个过程有趣的地方在于，提供AI技术方案商的公司不会“闭门造车”或“自个玩自个”，他们会逐渐将自己的应用开放给第三方开发者，媒体甚至所有人（慧川智能已经将智影开放出去了）。当“信息视频化”发展到一定规模之后，必将有更多的人参与进来并使用这些产品，这一过程又将产生足量的数据，反过来即会刺激整个行业的爆发性增长，直至巨头的出现。

康洪文说，“如果我们是赋能的一方的话，肯定会创造更大的价值。”

结语

谈及未来可能会遭遇的竞争，康洪文表现的非常自信，“因为任何一家AI公司，同一种算法是不可能立马被应用在其他领域之上的。每个应用领域都能催生很多的技术细节，所有公司都需要持续不断的去解决技术上出现的挑战和困难。它跟产品经理时代，或者运营驱动产品的公司不一样，不是看了它的产品模式就能学会的。”

事实上，目前国内也有一些创业公司在做一些消费级视频的AI应用，如给视频信息做标签化从而达到精准广告投放的效果。在康洪文看来，这些技术应用更多的是一种“任务驱动”。机器可能会对命令型任务完成的很好，但仍然不会增加对视频内容的理解。

随着机器学习能力的增强，AI在一些专项任务上已经表现出超越人类的特质，如AlphaGo对弈，CT图像的识别，图片情景的分类等。一直以来，人类对AI的理解是仅限于做一些机械化的工作，但在康洪文看来，随着机器人对专项任务的本质的理解加深之后，就能获得创造力的延伸，如谱曲机器人可达到以假乱真的程度，机器人写诗超过人类等等。AI在其“可做事情”和“不可做事情”之间，界限正变得慢慢模糊。

本文作者：李秀琴

本文转自雷锋网禁止二次转载，原文链接

码农公寓

相关文章