阿里云达摩院资深算法专家浅谈：视觉生产技术探索及应用

2022-01-05 07:18:21

何为视觉生产？
在介绍视觉生产之前我们需要给它进行定义，到底什么是视觉生产。简单来说视觉生产就是通过一个/一系列视觉过程，产出新的视觉表达。这里的产出是指人或机器能够感知的图像视频，而不是标签或者特征并且必须是新的视觉表达，和输入的不一样。在过去，这个过程大多数是由人工来实现，但是现在我们希望通过AI技术，来产生一系列新的图像，本篇文章主要介绍的也是这一过程。
总体来说视觉生产是有分类的，主要分为以下几个分类：生成、拓展、摘要以及升维，生成就是从零到一从无到有的过程，拓展是指1到N的过程，摘要则是和拓展相反，是N到1的过程，将内容浓缩起来，把最主要的信息找出来。而升维就比较特殊，打个比方图像是2d的形式，但是如果加了时间轴就变成了动态的了，就变成了二维+t，这样就是从二维升到三维，这一过程称之为升维。除此以外对图片的增、删、改、查的过程也属于视觉生产范畴。这些视觉生产相关的内容其实我们也都有在做，也上线了一些产品，例如鹿班、alibabawood、画蝶，以及我们近期上线的视觉智能开放平台，这些产品都是聚焦在视觉生产上面的，后面也会跟大家详细介绍。
阿里云达摩院资深算法专家浅谈：视觉生产技术探索及应用

图1

另外视觉生产它也有一个基本的通用框架，具体内容可看图2，这里面要着重介绍的是视觉生产引擎部分，因为它是整个框架里面最为核心的部分。视觉生成引擎一般分成两大类，一种是生产引擎，基于相关模型去真正的生成一些内容，类似从无到有的一个过程。当然了，还有一种是搜索引擎，解决的思路就是我生产很困难，那么我去找到或者搜索到一个和我要求一致或者类似的素材然后在对他进行一定的改变，从而得到一个新的素材。对于产出的素材我们也会遵循一定的规范，一般会从可看、合理、多样、可控以及可用这几个维度去判断，其中是否可用是从能否为产品或者平台带来用户以及它的商业价值的角度进行判断。通过这5个维度能保证我们的视觉生产它可以有一个比较好的结果，或者说比较合理的一个结果。

图2

想要生产出一份优质的素材，首先你需要去精细的理解它，因为唯有理解才能生成。理解的阶段大致分为识别、检测以及分割，最终的目的是知道每一个像素是什么。做分割，事实上这也是学术界和工业界研究很久的任务，但事实上要想把它做好还是非常不容易的。因为分割的话，它会有复杂的背景、各种各样的遮挡关系以及某些特定场景下特别高的要求。所以在图片分割上我们进行了深入的研究并制定了相关的模型框架如图3所示，第一个步就是进行一个mask粗分割，然后我们对这些数据质量非常高标注效果非常好的进行一个精分割的网络，再将他们结合起来，这样做的好处是他能够像粗分割那样获取数据，并且结合精确的、细腻的高质量的数据得到一个结果，我们也将这个模型发表到CVPR2020上面，大家有兴趣可以去看看。

图3

视觉生成技术的应用
那介绍完视觉生成技术，接下来我们给大家介绍3个视觉生成技术的应用案例。像文章开头时候说的鹿班（luban.aliyun.com）就是我们早些时候针对平面图像做的一个设计，也算是整个业界中第一个大规模落地的在线AI服务。除了鹿班类的平面图像生产外，针对视频我们同样制作了一款工具,名字叫做AlibabaWOOD（alibabawood.aliyun.com），它就专注于短视频的生成，目前也是一个云上的公共产品。详细的平台介绍可以点击产品官网链接进行查看。
阿里云达摩院资深算法专家浅谈：视觉生产技术探索及应用

图4

视频既然可以通过视觉生产去制作，我们也在思考通过视觉生产能否对现有的视频进行处理呢？答案是可以的。
我这里举个例子，如图5红线框的位置它本来没有东西，但是为了达到广告投放效果又不影响观看者的观看体验，我们通过视觉生产的方式在视频中插入了一个广告，从而实广告和内容融合在一起。
阿里云达摩院资深算法专家浅谈：视觉生产技术探索及应用

图5

前面说了这么多视觉生产技术，其实我们已经将这些技术形成的算法沉淀在了统一的平台上。阿里云视觉智能开放平台（vision.aliyun.com)截止现在，这个平台已经上线了100+的AI算法，这些算命法主要是通过API的方式实现调用。平台目前处于公测期，所有的AI算法都是免费开放的，也欢迎广大开发者前来调用，创建更多有价值的产品和解决方案！

图6

以上内容只是星瞳此次分享的一部分，由于篇幅原因，其他内容就不在这里展示了，感兴趣的同学可以点击下方的视频链接进行观看。如果在观看期间有视觉相关的疑问，都可通过钉钉搜索23109592进群和我们沟通。
直播回看链接：https://edu.csdn.net/course/play/28249/388355

码农公寓

相关文章