DiffIR: Efficient Diffusion Model for Image Restoration

摘要:

扩散模型(DM)通过将图像合成过程建模为去噪网络的顺序应用,达到了最先进的性能。然而,与图像合成不同,图像恢复(IR)有一个强约束,要求生成的结果必须符合真实图像。因此,对于图像恢复任务,传统的扩散模型在大规模模型上运行大量迭代来估计整个图像或特征图是低效的。为了解决这个问题,我们提出了一种高效的图像恢复扩散模型(DiffIR),该模型包括紧凑的图像恢复先验提取网络(CPEN)、动态图像恢复变换器(DIRformer)和去噪网络。具体来说,DiffIR有两个训练阶段:预训练和扩散模型训练。在预训练阶段,我们将真实图像输入到CPENS1中,捕捉一个紧凑的图像恢复先验表示(IPR),以指导DIRformer。在第二阶段,我们训练扩散模型,仅使用低质量图像(LQ)来直接估计与预训练的CPENS1相同的IRP。我们观察到,由于IPR只是一个紧凑的向量,DiffIR比传统的扩散模型使用更少的迭代次数就能获得准确的估计,并生成更加稳定和真实的结果。由于迭代次数较少,我们的DiffIR可以采用CPENS2、DIRformer和去噪网络的联合优化,从而进一步减少估计误差的影响。我们在多个图像恢复任务中进行了广泛的实验,并在减少计算成本的同时实现了最先进的性能。代码可在 https://github.com/Zj-BinXia/DiffIR 上获取。

解释:

这段话介绍了一种新提出的图像恢复方法 DiffIR,它基于扩散模型(Diffusion Models,DM)。扩散模型通常用于图像合成,效果非常好,它通过逐步去除噪声,生成最终图像。然而,在图像恢复任务中,要求恢复出的图像必须尽量与真实图像一致,这比图像合成要求更高。因此,传统的扩散模型需要大量的计算和迭代步骤来恢复整个图像,效率较低。

DiffIR的创新之处在于通过两种主要方法来提高效率:

  1. 紧凑的图像恢复先验提取网络(CPEN):它从真实图像中提取出一个简化的“图像恢复先验”表示,这个先验可以指导恢复过程,减少不必要的计算。
  2. 动态图像恢复变换器(DIRformer):它利用变换器模型,能够处理图像中各个像素之间的长距离关系,帮助模型更好地恢复图像细节。

DiffIR的训练分为两个阶段:首先用真实图像训练一个先验提取网络(CPEN),然后用低质量图像训练扩散模型,从而生成更为准确的恢复图像。由于图像恢复先验只是一个简单的向量,DiffIR可以用更少的迭代来得到更精确的结果,从而减少了计算资源的消耗,并提高了恢复结果的稳定性和真实感。此外,DiffIR还采用了联合优化策略,进一步提高了图像恢复的精度,并减少了误差。

通过这些创新,DiffIR在多个图像恢复任务中表现出色,并且在减少计算成本的同时达到了最先进的性能。


1. 引言

图像恢复(IR)是一个长期存在的问题,因为它具有广泛的应用价值且本质上是一个病态问题。图像恢复的目标是从低质量(LQ)图像中恢复出高质量(HQ)图像,低质量图像通常会受到各种降质因素(如模糊、遮罩、降采样等)的影响。目前,基于深度学习的图像恢复方法已经取得了显著的成功,因为它们能够从大规模数据集中学习到强大的先验知识。最近,扩散模型(DMs)[54],一种基于去噪自编码器层级构建的模型,在图像合成[23, 55, 12, 24]和图像恢复任务(如修复[40, 50]和超分辨率[52])中取得了优异的结果。具体来说,扩散模型通过逆转扩散过程,迭代地去噪图像。扩散模型表明,基于概率的扩散建模能够实现从随机采样的高斯噪声到复杂目标分布(如逼真的图像或潜在分布[50])的高质量映射,而不会像生成对抗网络(GANs)那样遭遇模式崩溃和训练不稳定问题。

作为一种基于似然的模型,扩散模型需要在大规模去噪模型上执行大量的迭代步骤(大约50到1000步)来建模数据的精确细节,这需要大量的计算资源。与图像合成任务从头生成每个像素不同,图像恢复任务只需要在给定的低质量图像上添加准确的细节。因此,如果扩散模型采用图像合成的方式进行图像恢复,不仅会浪费大量计算资源,还可能生成一些与给定低质量图像不匹配的细节。

本文的目标是设计一种基于扩散模型的图像恢复网络,能够充分且高效地利用扩散模型强大的分布映射能力来恢复图像。为此,我们提出了DiffIR。由于变换器(Transformer)能够建模长距离像素依赖关系,我们将变换器块作为DiffIR的基本单元。我们将变换器块堆叠成Unet形状,形成动态图像恢复变换器(DIRformer),用于提取和聚合多层特征。我们将DiffIR的训练分为两个阶段:(1)在第一阶段(图2(a)),我们开发了一个紧凑的图像恢复先验提取网络(CPEN),从真实图像中提取一个紧凑的图像恢复先验表示(IPR),以指导DIRformer。此外,我们还为DIRformer开发了动态门控前馈网络(DGFN)和动态多头反向注意力(DMTA),充分利用IPR。需要注意的是,CPEN和DIRformer是一起优化的。(2)在第二阶段(图2(b)),我们训练扩散模型,直接从低质量图像(LQ)中估计准确的IPR。由于IPR是轻量级的,只需为恢复过程添加细节,我们的扩散模型能够通过几次迭代准确地估计IPR,并获得稳定的视觉效果。

除了上述的方案和架构创新外,我们还展示了联合优化的有效性。在第二阶段,我们观察到估计的IPR可能仍然存在微小的误差,这会影响DIRformer的性能。然而,传统的扩散模型需要许多迭代步骤,这使得无法将解码器与去噪网络一起优化。由于我们的DiffIR所需的迭代次数较少,我们可以运行所有迭代并得到估计的IPR,进而与DIRformer联合优化。如图1所示,我们的DiffIR在消耗比其他基于扩散模型的方法(如RePaint [40]和LDM [50])少得多的计算资源的情况下,达到了SOTA性能。特别地,DiffIR比RePaint效率高1000倍。我们的主要贡献有三点:

  • 我们提出了DiffIR,一种强大、简单且高效的基于扩散模型的图像恢复基准方法。与图像合成不同,图像恢复任务中的大多数像素已经给定。因此,我们利用扩散模型强大的映射能力,估计一个紧凑的图像恢复先验(IPR)来指导图像恢复,从而提高了图像恢复的效率和稳定性。
  • 我们为动态图像恢复变换器(DIRformer)提出了动态多头反向注意力(DGTA)和动态门控前馈网络(DGFN),充分利用IPR。与之前的潜在扩散模型仅优化去噪网络不同,我们提出了去噪网络与解码器(即DIRformer)联合优化的方法,进一步提高了估计误差的鲁棒性。
  • 大量实验表明,所提出的DiffIR在图像恢复任务中能够达到SOTA性能,同时与其他基于扩散模型的方法相比,消耗的计算资源大大减少。

解释:

这段文字讨论了一个图像恢复新方法,称为 DiffIR,该方法是基于扩散模型的,并且在效率和性能上进行了创新。图像恢复的任务是将低质量的图像(例如,模糊、降采样或遮挡的图像)恢复成高质量的图像。现有的扩散模型在图像合成和恢复任务中取得了不错的效果,但它们通常需要很长时间来迭代处理图像,这导致计算资源的浪费。

DiffIR的创新在于它通过两阶段训练来提高效率并减少计算成本:

  1. 第一阶段:从真实的高质量图像中提取图像恢复的先验信息(IPR),这个信息将指导恢复过程。这个先验信息通过一个叫做CPEN的网络提取,并通过DIRformer网络使用。这一阶段的特点是用较少的计算资源就能获得有效的先验信息。

  2. 第二阶段:使用低质量图像来训练扩散模型,直接从这些图像中估计图像恢复先验(IPR),并通过少量的迭代步骤获得稳定的恢复结果。

与其他方法相比,DiffIR不需要大量的迭代步骤,就能在恢复过程中生成更加准确和稳定的结果,计算效率大大提高。它通过联合优化去噪网络和解码器(DIRformer),增强了对误差的容忍度,进一步提高了恢复的质量和效率。


2. 相关工作

图像恢复(IR)

作为开创性的工作,SRCNN [15]、DnCNN [84] 和 ARCNN [14] 采用紧凑的卷积神经网络(CNN)在图像恢复任务上取得了显著的成绩。之后,基于CNN的方法比传统的图像恢复方法更受欢迎。直到现在,研究人员从不同的角度开展了对CNN的研究,设计了更精细的网络架构和学习方案,如残差块 [29, 81, 6]、生成对抗网络(GAN) [21, 65, 48]、注意力机制 [86, 66, 11, 72, 71, 68, 73]、知识蒸馏 [67] 等等。最近,变换器(Transformer)作为一种自然语言处理模型,在计算机视觉领域获得了广泛的关注。与CNN相比,变换器可以建模不同区域之间的全局交互,并取得了SOTA(最先进的)性能。目前,变换器已被广泛应用于多个视觉任务,如图像识别 [17, 60]、分割 [62, 69, 87, 49]、目标检测 [5, 89] 和图像恢复 [7, 38, 74, 36, 8]。

扩散模型(DM)

扩散模型(DM)[23]在密度估计 [31] 和样本质量 [12] 方面取得了最先进的结果。扩散模型采用参数化的马尔可夫链来优化似然函数的下界,使其能够生成比其他生成模型(如GAN)更准确的目标分布。近年来,扩散模型在图像恢复任务中变得越来越重要,例如超分辨率 [28, 52] 和修复 [40, 50, 10]。SR3 [52] 和 SRdiff [35] 将扩散模型引入图像超分辨率,并取得了比基于GAN的SOTA方法更好的性能。此外,Palette [51] 受到条件生成模型 [44] 的启发,提出了一种用于图像恢复的条件扩散模型。LDM [50] 提出了在潜在空间进行扩散模型,从而提高恢复效率。此外,RePaint [40] 设计了一种通过重新采样扩散模型的迭代来改进去噪策略,用于图像修复。然而,这些基于扩散模型的图像恢复方法直接采用了图像合成中的扩散模型范式。然而,在图像恢复中,大多数像素已经给定,不需要对整个图像或特征图执行扩散模型。我们提出的DiffIR对紧凑的图像恢复先验(IPR)执行扩散模型,这使得扩散模型在图像恢复任务中更加高效和稳定。

解释:

这段文字主要讨论了图像恢复(IR)和扩散模型(DM)在计算机视觉中的应用,尤其是在图像恢复任务中的表现。

  1. 图像恢复(IR)

    • 图像恢复的研究起初主要依赖于卷积神经网络(CNN),如SRCNN、DnCNN等,它们取得了不错的效果。随着研究的深入,许多基于CNN的改进方法相继出现,例如使用残差块、生成对抗网络(GAN)、注意力机制等。近期,变换器(Transformer)也被引入图像恢复领域,尤其是在处理图像的全局依赖关系时,比传统的CNN更有优势,能够取得更好的性能。
  2. 扩散模型(DM)

    • 扩散模型是一类通过反向扩散过程来生成高质量图像的生成模型。它们通过逐步去噪从高斯噪声生成逼真的图像,并在许多任务中取得了SOTA的表现,包括图像恢复任务中的超分辨率和修复。与生成对抗网络(GAN)相比,扩散模型通过优化似然函数的下界来生成更准确的目标分布,因此在许多任务中表现更好。
    • 尽管扩散模型在图像恢复中很有潜力,传统的扩散模型通常是对整个图像或特征图执行去噪,但在图像恢复任务中,许多像素已经是已知的,不需要从头生成。DiffIR方法的创新之处在于,它对一个紧凑的图像恢复先验(IPR)进行扩散建模,从而提高了计算效率,同时也使图像恢复过程更加稳定。

3. 前提知识:扩散模型

在本文中,我们采用扩散模型(DMs)[23]来生成准确的图像恢复先验表示(IPR)。在训练阶段,扩散模型方法定义了一个扩散过程,该过程通过 T T T 次迭代将输入图像 x 0 x_0 x0 转换为高斯噪声 x T ∼ N ( 0 , 1 ) x_T \sim N(0, 1) xTN(0,1)。扩散过程的每次迭代可以描述如下:

q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t   x t − 1 , β t I ) q(x_t | x_{t-1}) = N \left(x_t; \sqrt{1 - \beta_t} \, x_{t-1}, \beta_t I \right) q(xtxt1)=N(xt;1βt xt1,βtI)

其中, x t x_t xt 是时间步 t t t 时的噪声图像, β t \beta_t βt 是预定义的缩放因子, N N N 表示高斯分布。公式(1)可以进一步简化为:

q ( x t ∣ x 0 ) = N ( x t ; α t ˉ   x 0 , ( 1 − α t ˉ ) I ) q(x_t | x_0) = N \left(x_t; \sqrt{\bar{\alpha_t}} \, x_0, (1 - \bar{\alpha_t}) I \right) q(xtx0)=N(xt;αtˉ x0,(1αtˉ)I)

其中, α t = 1 − β t \alpha_t = 1 - \beta_t αt=1βt α t ˉ = ∏ i = 0 t α i \bar{\alpha_t} = \prod_{i=0}^t \alpha_i αtˉ=i=0tαi

在推理阶段(反向过程),扩散模型方法从高斯随机噪声图像 x T x_T xT 开始,然后逐步去噪,直到得到高质量输出 x 0 x_0 x0

p ( x t − 1 ∣ x t , x 0 ) = N ( x t − 1 ; μ t ( x t , x 0 ) , σ t 2 I ) p(x_{t-1} | x_t, x_0) = N \left(x_{t-1}; \mu_t(x_t, x_0), \sigma_t^2 I \right) p(xt1xt,x0)=N(xt1;μt(xt,x0),σt2I)

其中,均值 μ t ( x t , x 0 ) \mu_t(x_t, x_0) μt(xt,x0) 为:

μ t ( x t , x 0 ) = 1 − α t α t ˉ x t − ϵ 1 − α t \mu_t(x_t, x_0) = \frac{\sqrt{1 - \alpha_t}}{\sqrt{\bar{\alpha_t}}} x_t - \frac{\epsilon}{\sqrt{1 - \alpha_t}} μt(xt,x0)=αtˉ 1αt xt

上一篇:泷羽sec-linux进阶


下一篇:ros2键盘实现车辆: 简单的油门_刹车_挡位_前后左右移动控制-1.背景与需求