视觉AI技术应用探索学习笔记

2022-04-28 05:20:21

定义

通过一个/一系列视觉过程，产生新的视觉表达

分类

生成：从0到1
扩展：从1到N
摘要：从N到1(把主要的信息浓缩起来)
升维：从An到An+1
增强/变换:从A到B
插入/合成: A+B = C
擦除: A-B=C

基础通用框架

五个关键维度

视觉生产要满足5个规范要求才是一个好的视觉

满足视觉,美学表现符合人们的审美
合乎语义,内容逻辑
保证结果的丰富性
提供用户预期的抓手，让用户可以添加一些控制因素
要具有商业价值

精细理解-分割抠图

识别：知道是什么
检测：识别+知道在哪儿（缺陷检测，多目标检测）
分割：识别+检测+知道每个像素是什么(全景分割,病灶分割)（视觉分割时生产的必要前置步骤）

分割抠图难点

复杂背景
遮挡
发丝精抠
边缘反色
多尺度/目标
数据不足

分割思路

思路

复杂问题拆解:mask估计+精准matting
丰富数据样本:设计图像mask同一模型

类型

语义分割(Semantic Segmentation):分析出事什么东西，比如是个人
实例分割(Instance Segmentation):分析出这个人是谁
图像抠图技术(Image Matting):处理图像

模型框架

从无到有

鹿班

功能：平面图像设计生成

框架流程

AlibaabWood

功能：短视频设计生成

框架流程

视频编辑-移花接木

应用方面

视频植入
动态监测分割
视频内容擦除
- 文字擦除
- Logo擦除
画幅变化
图像尺寸变化

视觉增强-修旧如新

核心逻辑

应用方面

人脸修复增强
渲染图超分
视频超分
视频插帧
HDR色彩扩展
风格迁移
颜色扩展

视觉制造-由虚入实

核心逻辑

应用方面

包装几何生成
服装几何生成
视觉迁移及融合
多样性拓展
2D3D融合

视觉智能开放平台

集合上面的一些视觉功能以及其他的功能，网址vision.aliyun.com