论文:Image Processing Using Multi-Code GAN Prior, CVPR2020
代码:https://github.com/genforce/mganprior
这是来自香港中文大学周博磊老师的工作。
尽管生成式对抗网络(GANs)在图像合成方面取得了成功,StyleGAN和BigGAN能够合成高质量的图像。这些方法能够从大量观测数据中捕捉多种层次的语义信息。但当前研究还没有把这些训练好的模型做为先验信息应用于真实图像处理(resuing these models as prior to real image processing remains much less explored)。
要实现这一目的,面临的主要挑战是:GAN模型通常从随机噪声中合成图像,无法处理真实图像。因此,可以考虑将真实图像转化为潜在编码(latent code),然后输入生成器来重建图像。
作者指出,无法使用单一潜在编码重建图像(impossible to recover every detail of any arbitrary real image using a single latent code)。因此,作者使用\(N\)个潜在编码\(Z_n\),每个编码都可以重建目标图像的某个子区域。
在本文中,生成器 \(G(\cdot)\) 被分为两个子网络 \(G_1^{(\ell)}(\cdot)\) 和 \(G_2^{(\ell)}(\cdot)\). 对于任何\(z_n\), 能够提取相应的空间特征\(F_{n}^{(\ell)} = G_1^{(\ell)}(z_n)\) 来用于合成(\(\ell\) 是网络中间层的index)。
因为GAN中生成器的不同通道负责生成不同的visual concept(目标、纹理等),作者使用了自适应通道权重系数 \({\alpha}_n\) 为\(z_n\)加权,使它们与各自己语义对应。
该方法整体架构如图所示,生成的特征在中间层组合,同时会有adaptive channel importance score来自适应调节权重。所有的 latent codes 和 channel importance score 最终使用重建损失和 perceptual loss来进行优化。
作者使用该方法做了多组应用:图像着色、超分辨率、图像补全,均取得了非常好的效果。