1.视觉生产技术分类
生成:从无到有。
拓展:已经存在,拓展到更多。
摘要:浓缩在一起,提取出重要的部分。
升纬:比如图像为2D,加上时间轴,就是2D加t。也 可以是2D变3D。
增强/变换:一张图通过增强或者变换得到另一张图。
插入/合成:两张图合成或者一张图插入一些内容。
擦除:就是去除一些内容。
2.视觉生产—通用基础框架
3.五个关键纬度
可看:满足美学表现。
合理:符合逻辑和语义。
多样:结果丰富多样。
可控:用户提供参数可控结果。
可用:可以实际应用。
4.分割
想要进行视觉生产最基础的就是分割。分割分为三步,第一步是识别需要知道这张图是什么?第二步,检测需要知道问题和处理的地方在哪?第三步就是分割,知道每个像素都是些什么东西,分割的难点在于数据不足,标注成本高。
分割大概有三种,第一是语义分割知道他是什么类型的,比如知道一张图片里面这是一个人。第二个是实例分割,比如知道那个人是谁?第三个是Matting。对于一些较难的复杂问题,一般进行拆分方法先粗mask估计,然后再精准的maltting。
5.视觉生成
除了分割,还有从无到有即视觉生成,比如有视频摘要,将视频中的重要部分选出来。视觉编辑,即可以在视频中加入植入等,其它的还有动态分割,将视频中指定的物品配出来、视频内容擦除,比如擦掉模糊的字幕,logo等。还有画幅变化、图像尺寸变化等。
6.视觉增强
视频增强、人脸修复、视频插帧、HDR色彩扩展、风格迁移、颜色拓展等。
7.视觉制造
几何生成,和传统工业相结合、视觉迁移、多样性拓展等。