2.1. Invertible neural network
与传统的残差块 [16] 及其变体 [17,18] 相比,可逆神经网络(INNs)在变分推理任务中表现出色 [19-21]。这些网络具有在不同分布之间进行信息无损转换的独特特性,使其适用于多种任务。INNs 实现了生成图像与潜变量之间更为廉价的逆映射。具体来说,在可逆神经网络中,潜变量 z z z用于生成图像,即 x = f θ ( z ) x = f_\theta (z) x=fθ(z),其中逆过程为 z = f θ − 1 ( x ) z = f_\theta^{-1}(x) z=fθ−1(x)。
Dinh 等人 [22] 提出了一种基于流的可逆方法,该方法使用交叉耦合层将高维数据映射到独立的潜变量,用于图像生成任务。在 [23] 中,叠加耦合层被替换为仿射耦合层,以实现信息的完全混合。Kingma 等人 [24] 引入了可逆的 1×1 卷积层,以保持空间局部相关性。然而,为了确保简单的逆变换,这些算法的非线性变换能力相比传统的残差块和密集块有所限制。Behrmann 等人 [25] 提出了一种带有简单归一化步骤的可逆标准 ResNet 块 [16],可用于分类、密度估计和生成任务。这种可逆网络已经扩展到各种图像恢复任务,如图像超分辨率 [26]、噪声去除 [27] 和 RAW 图像重建 [28]。
2.2. Conditional generative network
传统的生成网络已经被用于将高斯噪声转换为图像生成和恢复任务中的预期样本分布。然而,为了避免生成不合逻辑的图像,条件信息 [29] 被引入生成对抗网络(GAN)中,作为额外的约束。为了确保生成的多样性,Brock 等人 [30] 提出了一种大规模生成对抗网络(GAN),通过潜变量的约束来控制不同的分辨率和层特征。Odena 等人 [31] 引入了辅助分类器,用于区分输入样本的类别并生成多样化的样本。这些框架也已有效应用于其他图像任务。Sun 等人 [32] 提出了一种统一的图像重绘框架,利用纹理、颜色、几何和背景等条件信息来生成高质量的合成图像。在神经辐射场翻译任务中,Cai 等人 [33] 分离了场景的内容,这可以解释为常见的姿态先验。
主要看这篇文章的模型,前两部分可是略看