视觉生产技术探索和应用
一、视觉生产简介与理解
(一)定义
就视觉而言一般来说有两大类:一类是视觉理解,比如检测、分割等;另外一类是视觉生产,也可以理解为怎么去产生视觉,指通过一个/一系列视觉过程,产出新的视觉表达。如下图所示,有两点需要注意,一是这里的视觉表达指的是人或机器能够感知的图像视频,而不是标签或特征,二是产出新的视觉表达,和输入是不一样的视觉表达。在过去,图中所示的过程大多数由人来完成,比如设计师、美工等用PS等工具完成,现在,我们希望通过技术能够实现这个过程。
(二)分类
如下图所示,视觉生产主要包括生成、拓展、摘要、升维,另外还有增强/变换、插入/合成、擦除等。达摩院在该领域已经投入了很多人力和精力,也形成了一些产品,比如鹿班、画蝶、视觉智能开放平台等。
(三)通用基础框架
视觉生产有自己基本的通用框架,如下图所示。可能在细节上有细微不同,但是一般来讲其逻辑是类似的,包括请求(Request)、分发(Dispatch)、服务(Service)和响应(Response)四大部分。
(四)五个关键维度
如下图所示,要保证视觉生产有一个好的结果或者说可用的结果,其至少应满足可看、合理、多样、可控、可用五个维度,只有这样,才能在工业界产生真正的价值,而不仅仅是一个停留于理论的技术。
二、精细理解——寻微入里
如果想生产一个视觉,首先我们要理解输入的视觉,也就是需要精细的理解视觉。“理解”其实包括如下几个过程:
- 识别:知道是什么,比如人的识别、物的识别;
- 检测:识别+知道在哪,比如缺陷检测、多目标检测;
- 分割:识别+检测+知道每一个像素是什么。
其中,视觉分割是生产的必要前置步骤,也是学术界和工业界的一个热点,同时也是难点,因为进行分割时往往有复杂的背景和各种遮挡关系,或者在分割时对其要求非常高,比如发丝级、镂空等,另外还可能面临边缘发色、透明材质、多目标/多尺度进行分割等问题。实际上,分割时遇到的这些难题归根到底是标注成本高、数据严重不足的问题,更进一步,即使标注出来了,但是想要精细得将其分割出来,成本是成倍增加的。
(一)分割抠图解题思路
如下图所示,分割抠图包括不同的层次,从语义分割到实例分割再到Image Matting。
整体来说分割抠图的过程是比较复杂的,总的来说我们的思路是先拆解再丰富数据样本,其框架如下图所示。
(二)分割抠图效果展示
如下图所示,通过上面的技术我们在发丝级的分割和镂空细节特殊场景等例子中取得了较好的效果。目前,在阿里巴巴内部分割抠图技术是使用最广的视觉AI技术。
基于分割抠图技术,我们可以对分割进行拓展,进行多式多样的分割,比如对人的分割,可以从图像中分割出人的头像、单独分割出头发、单独分割出人脸等,更进一步,除了静态图像的分割,我们甚至对视频进行分割,在动态的视频中提取人物。类似的,对于动物分割、车辆分割、商品分割、动画分割等,我们也可以进行相应的拓展,来丰富我们的分割粒度。另外的,对于场景抠图,比如天空分割,我们把天空分割出来的同时把人物、物体等分割出来,进行场景分割的拓展。
三、视觉生成——从无到有
在完成分割之后,我们对视觉有了精细的理解,才能够进行下一步的工作。
(一)视觉生成——鹿班
最早的时候我们做了产品鹿班。鹿班是视觉生成领域在业界落地的先行者,对外提供大规模在线的AI设计服务。它是针对平面图像设计生成的产品,一开始在阿里巴巴内部大规模使用,目前已经通过阿里巴巴的云服务对外提供服务。鹿班的视觉生成的框架流程如下图所示,其大概过程包括理需求、定草图、选状态、调细节、生成图、评好坏6个步骤。
鹿班在多个领域有着广泛的应用,一开始是在电商领域,主要有以下两个能力:
- 照图生图:参考原图,将风格、布局等信息学习并迁移到目标数据上;
- 个性化设计:多元化设计风格,结合商品品类、投放场景、目标客群的差异进行定制化设计。
如下图所示,鹿班还可以用来做场景智能美工,用AI实现场景设计能力,大大降低人力成本。
当然,鹿班的应用不仅是以上几个行业,它在各行各业都有着广泛的应用,并且在各个行业的应用都会产生不同的效果,依据场景来进行赋能。
(二)视觉生成——AlibabWood
鹿班主要针对的是平面图生成,但是实际上更多场景需要的是视频生成,比如当前流行的短视频,对此阿里巴巴也设计了AlibabWood这款产品,专注于短视频的生成,目前已经累计生成了超过2000万个短视频,同时还有剧本生成、智能文案生成、自动剪辑、智能音乐推荐等实用功能。AlibabWood的框架流程如下图所示,总体包括素材准备、基础特效、智能特效和智能编排四大步骤,包括了众多技术在内。
AlibabWood有着众多应用案例,比如场景化智能视频的生成,还可以规模化生成特效视频,当然,如下图所示,在生成了视频之后,如果有多个视频,还可以进行视频摘要的生成以及考虑旁白完整性的智能视频集锦。
视频封面的生成也是一个重要的应用,如下图所示,它可以对视频内容全自动完成质量审核、内容分析与图像增强,输出多帧静止或者动图,这个过程用到了图像增强、内容分析等技术,也是在视频生成之后一个非常重要的技术应用。
四、视觉编辑——移花接木
一个视频,能不能变成另外一个?这就要用到视频编辑技术,主要包括增删查改等功能。
(一)视频植入
视频植入就是在视频中加入一些本来没有的内容,如下图所示,当前其应用最广泛的就是广告界。
如下图所示,视频植入是一项非常复杂的技术,需要考虑到方方面面,比如广告位检测、广告位跟踪等等,,有时会遇到遮挡、移出屏幕等复杂情况跟踪,而且在视频植入之后还要考虑广告是否能够跟视频细节匹配、光影渲染等问题。
(二)视觉内容擦除
上面视频植入是增加一些东西到视频中,有时候我们也要从视频中擦除一些东西,比如字母擦除、台标擦除、广告擦除等等,其核心挑战是分割,只有更精确的分割才能够精确的擦除。
(三)画幅变化
有些时候我们需要对视频进行修改,比如某段视频在拍摄的时候是在4:3的情况下进行的,在ipad、PC、手机上面播放的时候出现了尺寸不匹配的情况,这时候就要进行画幅变化,变化之后为了有完整的视觉效果,需要进行内容补全,如下图所示。
(四)图像尺寸变化
为了节省时间和精力,我们还可以进行图像尺寸的自动变化,这样子在某一个场景下设计的海报就可以更方便的用在其他场景中。
五、视觉增强——修旧如新
视觉增强就是对视频的内容进行一些改变,以达到视频某些方面的改善效果。
(一)视频增强
对视频效果的增强称为视频增强,如下图所示,它包括很多技术在内,包括单点核心技术和复合应用技术。
(一)视觉增强实例
- 人脸修复
人脸是最重要的目标对象,对人像进行细节修复增强,有很重要的意义和价值,如下图所示,可以用视觉增强技术对人脸进行修复增强,突出主要信息。
- 渲染图超分
CG渲染时间几乎与图像分辨率成正比,高质量真实感渲染需要30分钟才能生产一张图像,针对CG渲染流水线研发的超分辨率技术可以把低分辨率图像放大到与高清原图一样的清晰度。
- 视频超分
除了对图像进行超分外,我们还可以对视频进行超分,使得视频更加清晰,增加显示效果。
- 视频插帧
对视频进行插帧,一般的视频可能感受不到效果,但是在运动的场景、网络不好的在线视频等场景,对视频进行插帧可以有效的减少视频的卡顿感。
- HDR色彩扩展
除了帧率之外,色彩也是一个很重要的元素,也是视频高清的一个必要条件,运用视觉增强技术可以很好进行HDR色彩扩展,增强视频显示效果。
- 风格迁移与颜色拓展
视觉增强还可以用来进行风格迁移,比如某些相机软件,可以将一些名画的风格迁移到用户所拍摄的照片上,实现照片的风格多样化。
另外,视觉增强还可以进行颜色的拓展,比如下图所示的广告,可以同时产生不同色彩搭配的广告,满足不同的需求和色彩的多样性。
六、视觉制造——由虚入实
前面所讲的基本上都是数字内容,那么能否将虚拟的和实体的关联起来呢?当然是可以的,比如下图所示的包装设计和服装设计两个例子,我们可以利用视觉制造技术来解决实际生产过程中面临的效率低、协同差、定制难等问题。
视觉制造的核心逻辑如下图所示。
上面整个过程的用到了多种技术,比如包装几何生成、服装几何生成、材质纹理的多样化生成、视觉迁移及融合、多样性拓展等等。如下图所示,在得到物体或者商品的模型之后,利用2D3D融合,还可以将其与背景或者其他商品结合在一起,直接渲染效果图和商品的打样工作。同时,我们还可以完成从3D到2D的转换,形成一个闭环,对行业效率有了大大的提升。
七、视觉智能开放平台——万剑归宗
上面所提到的技术都可以在阿里巴巴的视觉智能开放平台(vision.aliyun.com)上找到,感兴趣的可以去尝试一下。
目前,该平台已经开放了2个多月,主要包含了如下图所示的多种能力,包括图像的和视频的,有100多种细分能力,实现了场景的全面覆盖。
该平台拥有专业、实用、全面、易用4大特点,并且可以进行一站式能力选择。
除此之外,视觉智能开放平台在公共云和专有云上都提供了多项服务,有着强大的供应链平台和基础设施,可以为用户提供省心省力的普惠服务。
如下图所示,针对一些场景,视觉智能开放平台提供了完整的场景解决方案,比如公共场所口罩佩戴检测系统(神荼)、视频自动广告植入系统、服饰趋势分析与辅助设计等等。
更多的方法和实例大家可以到视觉智能开放平台官网查看和详细了解。