视觉生产技术
一.定义和分类:
1.1.定义:通过一个/一系列视觉过程,产出新的视觉表达。
产出:人或机器能够感知的图像视频,而不是标签或特征;
要求:新的,和输入不一样的
1.2.分类:
1.3.通用基础框架
1.4.五个关键维度
- 满足视觉/美学表现
- 合乎语义/内容逻辑
- 保证结果的丰富性
- 提供用户预期的抓手【可控】
- 带来用户/商业价值【可用】
二.精细理解
2.1.分割抠图
- 识别:知道是什么?
- 检测:识别 + 知道在哪儿
- 分割:识别 + 检测 + 知道每一个像素是什么
2.2.分割抠图---难点
- 复杂背景
- 发丝精扣
- 透明材质
- 遮挡
- 边缘反色
- 多尺度/目标
数据严重不足,标注成本高
2.3.分割抠图--解题思路
- 复杂问题拆解:粗mask设计 + 精准matting
- 丰富数据样本:设计图像mask统一模型
2.4.分割抠图--模型框架
2.5.分割抠图--人像抠图
2.6.分割抠图--物体抠图拓展
2.7.分割抠图——场景抠图
三.视觉生成
3.1视觉生成--框架流程
3.2.视觉生成--电商设计
- 照图生图
- 个性化设计
3.3.视觉生成--鹿班场景智能美工
- IN:营销场景+原始素材
- OUT:营销图片
- 调用方式:API
##### 3.4.视觉生成--AlibabaWood
一键生成短视频:AlibabaWood
3.5.视觉生成--框架流程
四.视觉编辑--移花接木
4.1.视频植入
- 目前大部分广告都是与内容无关的,对用户不太友好,视频植入手段可将广告植入到视频中,提升用户体验
4.2.视觉编辑——植入位检测与定位
4.3.视觉编辑——动态检测分割
- 单独分割
- 遮挡关系等
##### 4.4.视觉编辑——视频内容擦除
##### 4.5.视觉编辑——文字擦除
##### 4.6.视觉编辑——图像尺寸变化
## 五.视觉增强——修旧如新
##### 5.1.视觉增强——视频增强