Class 1 达摩院视觉AI技术应用探索

2021-06-28 04:33:14

打卡截图：

一、视觉生产——定义

通过一个/一系列视觉过程，产出新的视觉表达。
产出:人或机器能够感知的图像视频，而不是标签或特征；
要求:新的，和输入不一样的。
输入（参数/素材）——>过程（视觉生产）——>产出（素材/成品）

二、视觉生产——分类

1.生成:从0到1
2.拓展:从1到N
3.摘要:从N到1
4.升维:从An到An+1（比如2D到3D，静态到动态等）
5.增强/变换:从A到B（改）
6.插入/合成:A+B=C（增）
7.擦除:A-B=C（删）

三、视觉生产——通用基础框架

（请求）输入（参数、素材等）
（分发）生产类型（通用生成、素材合成等）
（服务）视觉生产引擎（生成引擎、搜索引擎）
（响应）输出图像/视频/3D（素材、案例等）

四、视觉生产——五个关键维度（由下至上，由浅入深）

带来用户/商业价值（可用）
提供用户预期的抓手（可控）
保证结果的丰富性（多样）
合乎语义/内容逻辑（合理）
满足视觉/美学表现（可看）

五、精细理解——分割抠图

识别：知道是什么
检测：识别+知道在哪儿
分割：识别+检测+每一个像素是什么

六、视觉生成——框架流程

1.理需求
2.定草图
3.选状态
4.调细节
5.生成图
6.评好坏

素材准备——基础特——智能特效——智能编排

七、视觉编辑

视觉植入：可实现在视频里进行文字、图片的拼接插入或者删除
画幅变化：调整画幅比例、图片尺寸等
八、视觉增强（分辨率、帧率、色彩）

人脸修复增强、渲染图超分、视频超分、插帧、HDR色彩扩展、风格迁移

九、视觉制造

实体设计制造、服装几何生成、多样性拓展等

十、视觉智能开放平台

视觉开放平台