清华和微软的工作。
解读一下题目:
- large scale 大尺度
- image completion 图像补全
- co-modulated 互协调
- generative adversarial network 生成对抗网络
梳理一下:课题中提出一种 互协调 生成对抗网络,用来解决大尺度图像的补全问题。
核心思想
-
如何在大尺信息缺失的情况下,还能补全图像且效果不错???
作者认为,如果模型具备从无来生成一个该风格的图像,那么该图像的缺失区域不论多大,应该都能很好的补全出来。 -
图像生成和图像补全之间有什么关系?
– 经典的GAN以及其应用:最初的GAN架构的提出和若干后续gan的应用,都是从一个随机噪声向量生成一张图像
– 条件GAN模型:生成网络的输入又一个给定的向量(特定维度用于控制特定特征)拼接一个随机噪声(用于控制风格style)来生成一个我们希望有特定特征的图像
– 图像补全:相当于是条件生成问题,而输入的条件从向量变成了张量。该问题发展过程中,到GAN火热起来后,大家也开始使用GAN进行图像补全。 -
互协调生成对抗
– GAN网络输入的随机噪声为一种协调
– 条件GAN中,输入条件是另一种协调
在本研究中,作者提出,图像补全任务的缺失图gt*(1-mask)为GAN的生成条件,为一种协调。此外再引入随机噪声,为另一种协调。如果单纯利用随机噪声,网络应该能生成一个图像。当模型具备生成图像的能力,此时给一定的条件(缺失图),那么不论缺失部分多大,应该都能很好的补全。由此作者提出了一个互协调的思想,即给条件且引入噪声。
看一下图解释
非条件协调生成
z 潜在特征
M:映射网络
D:decoder 解码器(图像生成器)
图像条件生成
y: 条件输入
E: 条件编码器encoder
D:解码器 decoder(生成器)
条件协调生成器
y:输入条件
e: 条件编码器
D:解码器decoder (生成器)
互协调生成器
y:输入条件
E:条件编码器encoder
z:潜在向量特征
M:特征映射网络
D:解码器