Day1-视觉AI技术应用

2023-11-10 09:59:04

视觉生产概述

定义

通过一个/一系列视觉过程, 产出新的视觉表达

产出: 人或机器能够感知的图像视频, 而不是标签或特征, 比如: 眼睛所看到的大熊猫的具体形象, 而不是口头的一个符号.
要求: 输出应该是经过加工的, 和输入是不一样的.

分类

生成: 从无到有
拓展: 从一到多
摘要: 从多到一
升维: 从静态到动态
增强/变换, 插入/合成, 擦除.

通用框架

关键维度

可看: 满足视觉
合理: 合乎语义
多样: 结果丰富
可控: 提供预期
可用: 商业价值

技术简介

分割抠图

识别: 知道物体是什么
检测: 知道物体在什么地方
分割: 知道图像中的每一个像素是什么

视觉分割是视觉生产的必要前置步骤.

难点: 复杂背景, 遮挡, 发丝, 边缘反色, 多目标等.
思路:

复杂问题拆解: 粗mask估计+精准matting

丰富数据样本: 设计图像mask统一模型

模型:

mask粗分割

mask质量统一

估计精确alpha

视觉生成

框架

应用:

照图生图

个性话设计

短视频设计: 场景化智能视频, 规模化特效视频,

视频摘要, 视频封面

视觉编辑

视频植入: 比如广告植入等.
植入位检测与定位
动态检测分割
视频内容擦除: 字幕擦除, 台标擦除, 广告擦除等.
画幅变化, 图像尺寸变化

视觉增强

人脸增强, 去噪声等
渲染图超分
视频超分
视频插帧
HDR色彩扩展
风格迁移
颜色拓展

视觉制造

实体设计制造: 将数字化商品进行实*造
包装集合生成: 从2D变成3D的
材质工艺
视觉迁移及融合: 将纹理进行迁移等
多样性拓展
2D与3D融合