PSD: Principled Synthetic-to-Real Dehazing Guided by Physical Priors
PSD:由物理先验指导的有原则的合成到真实去雾
图2. 拟议的PSD框架的概述。我们的模型由一个主干、一个物理兼容的头和一个大气光估计网络(A-net)组成。我们用合成图像对模型进行预训练,然后用合成和真实的朦胧图像对模型进行微调,并由来自几个物理先验的代理损失委员会指导。
2.2.无监督域适应
无监督领域适应旨在解决源域和目标域之间的领域转移,而目标域中的图像是没有标签的。一个主要的想法是通过对分布差异的一些测量进行优化,诱导特征空间中源域和目标域之间的对齐[23, 35, 38]。Hoffman等人[12]通过使用生成性图像空间对齐和潜在表征空间对齐来减少领域差距。 Zou等人[44]提出了一个基于迭代自我训练程序的无监督领域适应框架,其中潜变量的损失是最小的。
预训练。我们首先采用最先进的脱色模型之一作为我们的骨干,因为这些模型在合成数据集上取得了令人印象深刻的性能,并且可以隐含地提供雾霾图像的领域知识。然后,我们将骨干模型修改为基于物理的网络,从单一的朦胧输入I同时生成干净的图像J˜、传输图t˜和大气光A˜。在这个阶段,我们只使用标记的合成数据进行训练,最终得到一个在合成域上预训练的模型。
微调。对于微调,我们利用未标记的真实数据将预训练模型从合成域推广到真实域。受到去雾强大物理背景的启发,我们认为高质量的无雾图像应该遵循一些特定的统计规则,这些规则可以从图像先验中推导出来。此外,单个先验提供的物理知识并不总是可靠的,因此我们的目标是找到多个先验的组合,希望它们可以相互补充。受此启发,我们设计了一个先验损失委员会,作为针对未标记真实数据训练的特定任务代理指导。
此外,我们实现了一种不忘学习(LwF)方法[20],该方法通过将原始任务的训练数据(即合成模糊图像)与真实模糊数据一起通过网络转发,迫使我们的模型记住合成领域知识。
3.2. Physics-Based Network
物理先验通常与散射模型 (1) 的三个分量 J、t 和 A 相关。由于大多数深度去雾模型仅直接估计恢复的图像,因此需要对其进行修改。我们建议添加两个新模块。
物理兼容头。该模块由两个分支组成,每个分支包含两个卷积层。我们假设所选的去雾主干是传输图 t 和干净图像 J 的有效特征提取器,并且简单的卷积层足以从特征图中生成两个分量。因此,我们通过这个与物理兼容的头部转发主干输出以分别生成传输图和无雾图像,如图 2 所示。
大气光估计网络(A-Net)。 A-Net 来自 DCPDN [42],并作为我们模型的独立部分,它直接从朦胧的输入估计大气光。我们通过重建损失在主干和这个子网络之间建立连接,详见 3.3 节。
3.3. Model Pre-training
对于我们修改后的网络的训练,我们采用与原始主干模型相同的参数设置和损失函数 Lo。由于单个 Lo 损失无法更新两个添加模块的参数,因此我们将重建损失 LRec 包含在训练中以共同优化整个模型。
具体来说,我们把网络输出J˜、t˜和A˜汇总起来,通过物理散射模型重建原始输入。
物理散射模型: ˜I = J˜ ⊙ t˜+ A˜ ⊙(1-t˜)。
其中⊙表示元素相乘。那么
重建损失 LRec 被表述为:
其中 I 表示模糊的输入图像。两个损失 Lo 和 LRec 结合起来用于新的基于物理的网络的预训练。由于精心设计的主干,我们的预训练模型在合成的朦胧数据上产生了令人满意的去雾结果。
3.4. Prior Loss Committee
我们探索了各种去雾先验,从中我们选择了三个有效且有充分根据的先验。它们为我们提供了真实图像的先验知识。我们将三个先验组合成一个损失委员会,作为无监督微调阶段的特定任务代理指导。下面详细介绍该委员会的三名成员。暗通道先验 (DCP) 损失。暗通道先验(DCP)[11] 是最著名和最有效的图像去雾先验。为了将 DCP 作为我们先前损失委员会的成员来实施,我们遵循 [10] 提出的方法将这个先验重新表述为能量函数:
其中 t 和 t~ 分别表示来自 DCP 和我们网络的传输估计。 L 是类拉普拉斯矩阵。第一项促进成功的图像抠图,第二项促进对暗通道解决方案的保真度。 λ 作为超参数。尽管 LDCP 极大地提高了真实模糊图像的模型性能,但它会产生副作用:去雾结果通常比预期的要暗。因此,我们将一个明亮的通道先前损失作为第二个成员加入我们的委员会。
明亮通道先验 (BCP) 损失。明亮通道先验(BCP)被广泛应用于解决去雾和图像增强问题。它有助于使生成的图像更亮并具有增强的对比度。我们将 BCP 实现为以下损失函数:
其中 t 和 t~ 分别代表来自 BCP 和我们网络的传输估计。 LBCP 通过显着改善恢复图像的全局照明和恢复更多细节来弥补 LDCP 带来的缺点。然而,一个只有两次损失的委员会通常无法保持稳定的微调过程。换句话说,要在 LDCP 和 LBCP 之间取得平衡并不容易。因此,我们在之前的损失委员会中招募了一名新成员,即 CLAHE 重建损失委员会。
CLAHE重建损失。对比度有限自适应直方图均衡化(CLAHE)是一种传统的对比度增强方法,它对图像脱灰也很有效。虽然我们可以直接使用CLAHE恢复朦胧的图像,但把它的结果作为监督是不可取的,因为它可能把这种方法的固有缺陷带入我们的网络。因此,我们以一种间接的方式来实现这一先验。具体来说,我们采取两个网络输出t˜,A˜,以及CLAHE JCLAHE的脱灰结果,通过散射模型(1)重建原始输入,然后通过定义损失函数:
其中 I 是原始的模糊输入,ICLAHE 是 JCLAHE、t~和 A~的重建结果。 LCLAHE 显着提高了我们委员会指导的无监督培训过程的稳定性。最后,对于所有三个成员,先前的损失委员会提供了一个损失函数,定义为:
其中 λd、λb 和 λc 是权衡权重。
3.5. Synthetic-to-Real Generalization
使用预先训练的基于物理的模型 M 和事先的损失委员会,我们可以进入泛化阶段,从合成到真实。从模型 M 开始,我们通过最小化我们先前的损失委员会提供的损失函数 Lcom,以无监督的方式将未标记的真实数据合并到 M 的训练中。为了避免灾难性遗忘,我们还实现了无遗忘学习 (LwF) 损失 Llwf ,这有助于我们的模型记住之前在合成数据集上的去雾任务。具体来说,在用真实图像更新模型 M 时,我们保留了原始模型 Mo 的副本,该副本在泛化过程中被冻结。我们通过 Mo 转发合成图像和真实图像,并最小化 M 和 Mo 的输出特征图之间的差异。损失函数表示为:
其中 Fs 和 Fos 代表 M 和 Mo 在合成数据上的特征图,Fr 和 For 分别代表真实数据上的特征图。此外,物理先验通常无法正确处理图像中的天空,导致伪影和颜色偏移。为了解决这个问题,我们通过暗通道先验粗略估计输入图像的天空区域,并在微调过程中尽可能保留天空区域的原始像素值,通过以下损失函数:
其中 Msky 是指示天空区域的二值掩码,J 和 Jo 是从 M 和 Mo 恢复的图像。补充材料中提供了更多详细信息。 3.3 节中提到的重建损失 LRec 也被纳入,以集成网络的所有模块并同时对其进行优化。最终,该阶段的整体损失函数 L 定义为:
4. 实验
4.1。实施细则
我们从 RESIDE 数据集 [16] 中选择 OTS(户外训练集)和 URHI(未注释的真实朦胧图像)进行训练,其中来自 OTS 的合成图像用于预训练,来自 URHI 的真实朦胧图像用于微调。所有图像都随机裁剪为 256×256 大小的块,归一化像素值从 -1 到 1。
默认情况下,PSD 的实验是在 MSBDN [6] 主干上进行的,因为该模型在合成图像上提供了最先进的去雾性能,并且观察到非常适合我们的框架。在预训练中,主干被 Adam 优化器修改和训练 100 个 epoch,其中 β1 = 0.9 和 β2 = 0.999。初始学习率设置为 10−4,每 10 个 epoch 的衰减率为 0.75。在微调中,我们训练网络 20 个 epoch,初始学习率设置为 10-4,每两个 epoch 衰减 0.5。损失函数中的权衡权重设置为 λd = 10−3 、λb = 0.05 和 λc = 1。
4.2.与最先进方法的比较
我们将 PSD 的性能与几种最先进的去雾方法进行了比较。进行了一系列实验,包括视觉质量比较、人类主观调查、无参考图像质量评估和下游任务性能评估。
视觉质量。我们首先评估了PSD在RTTS真实雾霾图像上的视觉质量,RTTS是RESIDE数据集的一个子集[16]。我们将PSD的结果与下列最先进的方法进行比较。NLD [1], AOD-Net [14], FFANet [28], MSBDN [6], SSLD [17], EPDN [29], 和DAD [34]。结果显示在图3中。除了来自RESIDE的图像,我们还在其他真实的朦胧图像上评估了PSD,以进一步说明其卓越的泛化能力。这些图像是由以前研究的作者发布的[8, 9, 11]。结果显示在图4中。
从图3和图4中,我们可以观察到NLD[1]有时不能处理天空区域,这导致了严重的颜色偏移。由AOD-Net[14]和MSBDN[6]修复的图像仍然有些朦胧,特别是在远处的区域。 SSLD[17]和EPDN[29]往往会使图像变暗,如图3(e)和图4(f)所示。DAD[34]的脱色效果很好。DAD[34]的脱色效果相当好,但在某些情况下仍然存在颜色失真问题。与所有这些方法相比,PSD产生了高质量的无霾图像,细节更清晰,边缘更锐利。更多的除雾结果显示在补充材料中。
人类主观评价。我们进行了一项人类主观研究,以评估 PSD 相对于其他方法的性能。我们从 HSTS 中获取了 10 个真实世界的朦胧图像,这是 RESIDE 中专门用于主观评估的子集。我们采用 PSD 和其他两种域自适应去雾方法 SSLD [17] 和 DAD [34],为每个输入生成三个去雾图像。遵循 EnlightenGAN [13] 设定的协议,我们要求十名受试者以成对的方式独立比较三种方法的结果。具体来说,每次显示人类对象时,都会从三个结果中随机抽取一对恢复图像,并要求选择更干净、视觉上更赏心悦目的图像,具有高质量的细节和无色偏。与 EnlightenGAN 一样,我们拟合 Bradley-Terry 模型 [2] 来估计这些方法的主观得分。然后根据分数将 1、2、3 中的排名分配给每个图像上的三种方法。图5显示了评估结果。 PSD在10张图像中的9张上得分最高,表明其泛化性能优越。