视觉生产技术
一、定义和分类
定义:通过一个/一系列视觉过程,产出新的视觉表达
产出:人或机器 能够感知的图像视频,而不是标签和物证
要求:新的和输入的不一样
分类:从0到1
拓展:从1到N
摘要:从N到1
升维:从An到An+1
增强/变换:从A到B
插入/合成:A+B=C
擦除:A-B=C
通用基础框架
输入(请求 Request)
生产类型(分发 Dispatch)
视觉生产引擎(服务Service)
输出 图像/视频/3D(响应Response)
五个关键维度
1、满足视觉/美学表现{可看}
2、合乎语义/内容逻辑{合理}
3、保证结果的丰富性{多样}
4、提供用户预期的抓手{可控}
5、带来用户/商业价格{可用}
二、精细理解-寻微入里
1、识别 知道是什么
2、检测 识别+知道在哪儿
3、分割: 识别+检测+知道每一个像素是什么
分割抠图-难点
复杂背景、遮挡、发丝精抠、边缘反色、透明材质、多尺度/目标
分割抠图-解题思路
1、复杂问题拆解:粗mask估计+精准matting
2、丰富数据样本:设计图像mask统一模型
分割抠图-模型框架
1、mask粗分割
2、mask质量统一
3、估计精确alpha
分割抠图-效果展示
分割抠图-人像抠图拓展
分割抠图-物体抠图拓展
细节部分处理
分割抠图-场景抠图拓展
3、视觉生成-从无到有
视觉生成-鹿班
平面图像设计生成
鹿班是视觉生成领域在业界落地的先行者,对外提供大规模在线的AI设计服务;
视觉生成——框架流程
视觉生成-鹿班电商设计
照图生图:参考原图,将风格、布局等信息学习并迁移到目标数据上;
个性化设计:多元化设计风格,结合商品品类、投放场景、目标客群的差异设计订制化设计
视觉生成-鹿班场景智能美工
鹿班在各行业中的应用
视频、娱乐、母婴等
视觉生成-AlibabaWood
视频生成-框架流程
视觉生成-视频封面
可以对视频内容全自动完成质量审核、内容分析与图像增强,输出多帧静止或动图。
图像增强:在内容理解的基础上裁剪或组合。
内容分析:基于深度学习的语义分析,根据吸引力挑选内容。
质量审核:根据模糊、爆光等因素过滤低质图像。
4、视觉编辑-移花接木
视觉编辑-视频植入
挖掘视频核心价值:扩展广告爆光渠道,创新广告形式,提升用户体验。 电视剧植入
扩大植入覆盖范围 :自动化批量处理视频内容,挖掘海量短视频、UGC内容等的广告价值,扩大植入内容的覆盖面。电影植入
提升植入效果效率:取代手工后期,缩短植入周期,降低人力成本,给广告招商留出充足时间,且不需要修改与流出媒资。综艺植入
考虑各个环节细节
视觉编辑-动态检测分割
自动检测到要处理的部分
视觉编辑-视频内容擦除
相关实用技术 :字幕擦除、台标擦除、广告擦除、场景文字擦除、人体擦除
核心挑战与亮点 粗定位、精分割、像素填充、在线训练
视觉编辑-文字擦除
去掉后期字幕 去掉原生文字
提升视频效果
视觉编辑-Logo擦除
视频某边角的平台Logo 擦除,
去掉广告 (区域大,标识无限)
去掉台标(标识有限)
视觉编辑-画幅变化
主体检测分割+背景拉伸+背景补全+智能构图裁剪+超分辨率=多保留50%有效画面;
视觉编辑-图像尺寸变化
5、视觉增强-修旧如新
视觉增强-视频增强
视觉增强-人脸修复增强
人脸是最重要的目标对象,对人像进行细节修复增强,有很重要的意义和价值。如提升清晰度
视觉增强-视频超分
整体提高视频分辨率
视觉增强-视频插帧
视觉增强-HDR色彩扩展
提升色彩 透亮
视觉增强-风格迁移
视觉迁移-颜色拓展
6、视觉制造-由虚入实
实体设计制造
视觉制造-核心编辑
视觉制造-包装几何生成
视觉制造-材质工艺
视觉制造-视觉迁移及融合
视觉制造-多样化拓展
视觉制造-2D3D融合
7、视频智能开放平台-万剑归宗
官网:vision.aliyun.com
通过以上的内容对视觉已经有了初步的认知
每天进步一点点!