Image Processing Using Multi-Code GAN Prior 论文解读

Image Processing Using Multi-Code GAN Prior


现存问题

GAN网络可以逆用于将输出图像重新编码成潜在空间(latent space)中的隐编码(latent code),将图像转换为隐编码会方便后续对于图像的处理,如图像超分辨率重建,图像上色,人脸属性编辑等任务都可以通过操控隐编码来完成。然而现有图像重建方法主要通过两种方式来实现,第一种是通过反向传播直接优化隐编码,第二种是单独构造一个编码器(Encoder)将图像转换为隐编码。但是,现有方法的重建效果都不太理想,尤其是输入图像为高分辨率图像时。


文章解决问题

  1. 文章提出mGANprior(multi-code GAN prior), 通过使用多个隐编码和自适应通道的重要性有效地逆用GAN网络。文章所提出的方法在图像重建任务上超越了现存方法。
  2. 文章将mGANprior应用于一系列现实世界的应用,如图像着色、超分辨率重建、图像修复、语义操控等任务,展示了其在真实图像处理中的潜力。
  3. 我们通过将每一层的隐编码以及它们所构成的特征组合起来,进一步分析了GAN生成器中不同层的内部表示。

创新点

给定图像 x x x,GAN的逆用可以表现为通过找到合适隐编码 z z z恢复 x x x从而逆化生成过程:

Image Processing Using Multi-Code GAN Prior 论文解读

但是,由于该优化问题的非凸特行,先前的方法通过使用单个隐编码,并不能随意地高质量地重建图像。基于此,文章的作者使用多个隐编码以及它们构成的中间网络层的带有通道重要性的特征图(feature maps)实现高质量的图像重建。

Image Processing Using Multi-Code GAN Prior 论文解读

上图是文章提出的模型的架构图,将重建图像分成了两阶段,下图是第一阶段公式。第一阶段主要利用前若干层的生成器和多个隐藏编码生成对应的特征图。

Image Processing Using Multi-Code GAN Prior 论文解读

第二阶段如下:将生成的特征图在特定的通道上赋予权重,然后求和,送入剩余的生成器网络层,公式如下:

Image Processing Using Multi-Code GAN Prior 论文解读

目标函数:优化参数包括隐编码,通道权重

Image Processing Using Multi-Code GAN Prior 论文解读

L L L的计算包括两部分——perceptual loss 和 l 2 l_2 l2​loss,公式如下:

Image Processing Using Multi-Code GAN Prior 论文解读

文章随后将模型应用于多种图像处理任务:对于不同的任务,只需轻微修改目标函数即可。

  1. 图像上色:给灰色图像上色,计算重建后图像灰度处理后与原图的之间的损失

    Image Processing Using Multi-Code GAN Prior 论文解读

  2. 超分辨率重建:提升原图像分辨率,计算重建后图像降低分辨率后与原图的之间的损失

    Image Processing Using Multi-Code GAN Prior 论文解读

  3. 图像修复:修补原图像的缺损

    Image Processing Using Multi-Code GAN Prior 论文解读


实验设计

实验数据集:人脸数据集CelebA-HQ,FFHQ;场景数据集LSUN。

评价机制:

  1. PSNR(Peak Signal-to-Noise Ratio)

    PSNR是最普遍,最广泛使用的评鉴画质的客观量测法。

  2. LPIPS metric(Learned Perceptual Image Patch Similarity)LPIPS metric用于评估不同网络中的特征距离。

  3. IOU(Intersection-Over-Union)交并比:检测结果与 Ground Truth 的交集比上它们的并集。

文章首先对比了不同GAN的逆用方法与mGANprior在上述两种评价机制下的表现。从实验结果可以看出文章提出的方法在三种数据上都达到了最优的效果。

Image Processing Using Multi-Code GAN Prior 论文解读

文章还对隐编码从数量和组合特征图所在的网络层两方面做了分析,结果如下图:

Image Processing Using Multi-Code GAN Prior 论文解读

上图表明了,随着初始隐编码数量的增多,重建的效果越来越好,但是增多到一定数目时重建效果并没有重大的改善。实验结果还显示组合特征图的网络层层数越大,重建效果越好。这是因为单个隐编码的表示能力有限,尤其是在测试和训练所用的图像之间存在域间隔(domain gap)。如果采用多个隐编码,则可以很好的解决问题。下图显示了,无论GAN的生成器用哪种数据集进行训练,都可以高质量地重建目标图像。实验结果也同样表明了higher layer better performance。这是由于在重建关注低层级像素值,GAN倾向于在低层时表达抽象语义,在高层时注重内容细节。下图中PGGAN在Layer 4就已经达到了很好的效果,但是其余三个GAN在Layer 8的效果才最理想,这是因为在Bedroom上训练的GAN在低层信息中就已经包含了高级的细节,这是其他三个GAN难以使用的信息。

Image Processing Using Multi-Code GAN Prior 论文解读

回想一下,mGANprior使用自适应通道重要性来帮助确定特定 z z z应该关注哪种语义。因此,作者也对每一个隐编码的作用做了分析,结果如下:

Image Processing Using Multi-Code GAN Prior 论文解读

上图展示了不同隐编码的IoU(Intersection-over-Union metric)map,结果表明不同的隐编码关注了整个图像不同的部分。


总结

文章利用多个隐编码和组合通道权重很好的将目标图像解耦成了不同关注不同区域的隐编码,从而方便对目标图像进行一系列的图像处理。作者还研究了GAN在生成图片时不同层级关注的信息,并且发现全新的解耦方式可以让减轻GAN所受训练集的约束,可以跨域完成图像重建。

关注不同区域的隐编码,从而方便对目标图像进行一系列的图像处理。作者还研究了GAN在生成图片时不同层级关注的信息,并且发现全新的解耦方式可以让减轻GAN所受训练集的约束,可以跨域完成图像重建。

Image Processing Using Multi-Code GAN Prior 论文解读

上一篇:循环链表(c)


下一篇:南昌大学-计算计-2020-2021-2学期-算法重点