高斯噪声水平学习的盲通用贝叶斯图像去噪
- 摘要
- introduction
- related work
- single-image fusion denoising(单个图像融合去噪)
- experimental evalution
- conclusion
摘要
盲目和通用图像降噪包括使用独特的模型对任何级别的噪声进行图像降噪。这是特别实用的,因为在开发模型时或在测试时不需要知道噪声水平。我们提出了一种具有理论基础的盲和通用深度学习图像降噪器,用于去除加性高斯噪声。我们的网络基于最佳降噪解决方案,我们称之为融合降噪。理论上是根据高斯图像先验假设推导出来的。综合实验表明,我们的网络在看不见的附加噪声水平上具有普遍性。我们还调整了融合降噪网络体系结构,以对真实图像进行图像降噪。我们的方法改进了现实世界的灰度加性图像,从而降低了PSNR结果,从而降低了训练噪声水平,并进一步降低了训练期间看不到的噪声水平。它还提高了最先进的彩色图像去噪性能的每一个单一的噪音水平,平均0.1db,无论训练与否。
introduction
图像去噪是应用于所有图像处理流水线的一项基本的图像恢复任务。图像去噪器也可以作为深度网络模型的一部分,以改进高级视觉任务的训练[27]。然而,作为一个不适定反问题,去噪是一个挑战[14]。
在开发了最佳解析解决方案BM3D[8]、[18]之后,在深度学习去噪器的出现之前,去噪性能几乎没有什么改进。最近的基于卷积神经网络(CNN)的方法实现了最先进的图像去噪性能,甚至比传统的基于优化的方法更快[55]。深度CNN模型的容量增加也解决了以前多层感知器方法在去噪方面的限制[5]。设计良好的CNN架构在图像恢复任务中也可以优于对抗性的训练方法[45]。
神经网络具有深度和广度,因此具有很大的应用价值去模拟复杂函数[56],[61]通过平衡网络的正则化或正规化[21]与残差学习。然而,由网络建模的复杂函数是不可解释的,与随机去噪几乎没有联系。这是一个限制对于训练一般模型去噪不同水平的噪声。去噪器是盲的(blind)在测试时不需要噪声级信息,是通用的在单个模型可以处理所有噪声级。盲通用模型很重要,因为在测试时或训练前知道噪声水平对于大多数应用来说都不是一个实际的场景。
首先在图像先验是高斯的理论假设下,从数学上推导了一个盲通用去噪函数。我们的去噪函数,在随机期望中是最优的,被称为融合去噪,因为它使用信噪比将输入与先验加权相融合,并对加性高斯噪声去除方法进行了优化。实验结果表明,最先进的去噪器DnCNN[59]可以模拟一个最优的融合去噪函数。然而,它只对网络在训练过程中看到的噪声水平进行建模。对于看不见的水平,我们的合成实验的融合网络,称为融合网络,远远优于DnCNN。我们在合成数据上展示了我们改进的泛化结果。
图像先验是高斯值的假设并不一定适用于真实图像。在我们的理论解的基础上,我们通过设计第二个网络来学习融合函数来适应我们的融合网络。我们称这个新的网络盲通用图像融合去噪器(BUIFD)。BUIFD提高了在标准伯克利测试集(BSD68和CBSD68)[41]上训练灰度和彩色图像的噪声水平上的最先进的去噪性能。此外,我们表明,我们的推广结果到合成实验中获得的看不见噪声水平扩展到灰度BSD68测试集的去噪。事实上,未训练的噪声水平的去噪性能提高了多个PSNR点。我们提出了一个扩展的去噪评估,它涵盖了其他测试数据集和其他传统的和基于学习的去噪方法。
本文的主要贡献是:
- 我们从理论上推导了一个最优融合去噪函数,并将其集成到一个深度学习结构(fusion Net)中,以评估在已知先验条件下,理论上加性高斯去噪任务的深度网络的最优性,
- 我们在合成数据上表明,将辅助融合损失集成到我们的融合网络中,提高了网络的泛化能力,使其更接近最优解;
- 开发了一个适用于真实图像的盲通用图像融合去噪器blind universal image fusion denoiser(BUIFD)网络,结果表明,在多个标准图像处理测试集上,其去除高斯噪声的性能优于目前的水平。
本文的结构如下:
在回顾了相关工作之后,我们首先为我们的理论实验奠定了基础。我们的实验使我们能够评估这个问题的最优性。
网络的训练噪声水平和泛化的训练网络,以看不见的高斯噪声水平,比较最佳的贝叶斯解决方案。然后,我们将贝叶斯框架解决方案扩展到我们的真实图像设计网络(BUIFD)中,该网络的准确先验信息是未知以提高泛化能力。在标准去噪基准上的实验结果表明,我们的去噪网络优于现有的去噪网络,特别是在未知的噪声水平上。
related work
文献中的图像去噪方法可以分为经典的方法和最新的基于深度学习的方法。然而,一个常见的方面是,利用图像先验来改善去噪结果。出于实际原因,去噪器必须是盲目的和普遍的,因为噪声图像中的噪声水平可能不是恒定的或已知的。
Image Priors
无论它们是假设图像梯度[23]、[35]、[42]、[51]、稀疏性[10]、[15]、图像中的自相似性[4]、[11]、[53]、混合方法或给定特定架构的神经网络权值,图像先验都是去噪至关重要的。即使是基于扩散或滤波的传统方法(在空间中或其他领域)也依赖于一些先验。它们的所有形式和多种图像恢复问题,可以被发现和试探性测试[13],[23],用字典[15],马尔可夫随机场[41],或用深度神经网络[59]学习。在我们的网络中,先验算法采用了学习特征表示的显式形式。
Noise Modeling
加性高斯白噪声不一定是实际场景中的最佳模型,如原始图像去噪[3]。然而,图像的大部分去噪文献集中于高斯去噪,因为它仍然是一个基本问题。具有噪声的图像遵循不同的、潜在的数据相关性,可以转换为具有高斯噪声的图像并且可以转换回[31]。此外,一个高斯去噪解可以作为图像正则化器的近端proximal,它可以代替半二次分裂half-quadratic splitting(HQS)优化中昂贵的步骤,通常负责图像处理中的不可微正则化。这种方法在最近的HQS方法中采用,该方法利用去噪器进行图像恢复[60]。因此,我们采用了一个加性高斯白噪声模型的假设。
Image Denoisers
对于去噪器来说,必须知道准确的噪声级是一个严重的限制,而在训练之前提前知道噪声级更是一个限制。当对具有空间变化噪声水平的图像去噪时,固定且已知的噪声水平也是一个限制。没有一个通用的去噪模型意味着多个模型需要被训练和存储在不同的噪声水平上,并且在测试时需要噪声水平的知识。最近的推广到图像恢复任务的方法[60]是一种非通用的非盲去噪器,其中25个去噪网络用于50级以下的去噪,甚至训练参数都是基于噪声水平选择的。同样地,Remez等人[39],达到的PSNR的结果与最先进的水平相当,是另一个非普遍的非盲的例子。为了更好地利用先验,图像首先被归类为一组类,每个类都有其特定的深度网络。该方法也不是盲的,而且根据噪声水平进行训练。张等人[62]提出了一种通用的非盲网络,通过去噪、去模糊和超分辨率图像来实现多个超分辨率退化。他们报告说,虽然盲版本更实际,但他们的盲方法不能持续地表现良好,因为它不能推广。
Blind Universal Denoisers
最先进的高斯去噪器DnCNN既是普遍的,又是盲目的。这是一个深度网络,在随机采样的噪声水平补丁上联合训练,以推广去噪到一系列的噪声水平。它还没有被其他方法所超越,无论是否盲目。只有最近DnCNN[59]同一作者的FFDNet[61]在DnCNN伯克利BSD68集的噪声水平50和75和0.15dB上分别提高了0.06和0.15dB,而在其他水平的表现类似或更差。然而,它不是一个盲网络,因为它需要一个噪声级图作为输入。Lefkimmiatis [26]最近研究了通用去噪,建立在对Cnn中的patch similarity建模的先验工作的基础上[25]。严格地说,他的方法并不是普遍的,因为两个网络被单独训练,一个针对低网络(≤30),另一个针对高噪声水平(∈[30,55])。因此,它们是非盲的,因为必须在推理时做出基于噪声水平的选择。此外,已发表的结果没有优于盲DNCNN去噪结果。因此,我们对我们的BUIFD方法与最先进的DnCNN和经典的BM3D方法[8],[9]进行了评估比较。
我们提出的图像去噪器BUIFD学会了解开其特征,以预测先验和噪声水平的中间结果。它们作为网络融合部分的输入,负责最终的去噪。分离特征空间是可解释性、部分迁移学习、域翻译、域适应、特定属性操作、多任务网络的基础。在我们的情况下,它是我们的理论去噪函数的基础,因为不同的表示作为它的输入。
single-image fusion denoising(单个图像融合去噪)
A.Theoretical Framework
虽然一些特定的应用可以有一个更精确的建模[24],但在去噪任务中通常假设一个加性的高斯白噪声模型,因为它建模了常见的采集信道,因此,我们假设加性独立同分布的噪声
n
n
n 遵循一个高斯分布
N
(
0
,
σ
n
2
)
N(0,\sigma_n^2)
N(0,σn2),并且它与数据
x
x
x 不相关,噪声标准差
σ
n
\sigma_n
σn称为噪声级。在贝叶斯框架中,给定有噪声观测
y
y
y(其中
y
=
x
+
n
y=x+n
y=x+n)的无噪声数据
x
x
x 的条件概率分布由下列关系给出
其中,X和Y是分别对应于
x
x
x 和
y
y
y 的随机变量,当我们寻找
x
x
x 的最大后验概率Maximum Aposteriori Probability (MAP)估计
x
^
\hat{x}
x^ 时,我们对条件分布很感兴趣。前者是
我们还将
x
x
x上的先验数据建模为以
x
ˉ
\bar{x}
xˉ为中心的高斯分布
N
(
x
ˉ
,
σ
x
2
)
N(\bar{x},σ_x^2)
N(xˉ,σx2)后来我们在Sec3-D中修改了这个假设,到真实世界图像的实际情况。给定一个无噪声
x
x
x值的
y
y
y的条件概率为
y的概率分布是x和n的卷积,在高斯情况下为
利用这些概率分布函数,将(3)和(4)带入等式(1)得到噪声观测
y
y
y下
x
x
x条件分布的。
p
X
∣
Y
(
x
∣
y
)
p_{X|Y}(x|y)
pX∣Y(x∣y)也可以用x中的高斯形式写,给定一个观察值
y
y
y
通过将
p
X
∣
Y
(
x
∣
y
)
p_{X|Y}(x|y)
pX∣Y(x∣y)的扩展表达式和等式(5)对于所有可能的
x
x
x等式进行匹配,可以得到
μ
^
\hat{μ}
μ^ 和
σ
2
^
\hat{σ^2}
σ2^ 的表达式
对于在等式(5)中显示的高斯值,MAP估计量也是条件期望值(模和均值相等),因此它是由下式所给出
根据等式(5),可以直接推导出
其中
s
=
σ
x
2
σ
n
2
s=\frac{\sigma_x^2}{\sigma_n^2}
s=σn2σx2并且表示信噪比(SNR)。我们称这个操作为融合去噪,因为它融合了先验图像和噪声图像,基于信噪比。
图像去噪模型通常被训练为最大化PSNR或等效地最小化均平方误差损失(MSE),这意味着随着神经网络模型的接近最优收敛性(MSEloss→0+),其输出趋向于最小MSE估计器(MMSE),通过我们的高斯建模,这导致了等式(8)中的MAP估计值
x
^
\hat{x}
x^。因此,神经网络中的MSE重构损失导致了估计器
x
^
\hat{x}
x^,当且仅当S和
x
ˉ
\bar{x}
xˉ 被正确地预测并且正确地用于与噪声输入
y
y
y 的融合,正如在等式(8)中。作为我们在Sec IV-B部分实验评估中的参考,对于等式(8),最佳融合给出了的精确 S 和
x
ˉ
\bar{x}
xˉ 值。
B. Fusion Net Architecture
我们将最优融合解的基本结构合并到神经网络的体系结构中,我们称之为融合网络。我们基于在[59]中介绍并在图1(a)中说明的盲DnCNN构建我们的融合网的主要模块,DnCNN的噪声预测CNN(图1(a))、先验预测CNN和预测
f
(
S
)
f(S)
f(S)的CNN(其中
f
(
S
)
=
1
/
1
+
S
f (S)=1/1+S
f(S)=1/1+S)在我们的融合网络(图1(b))中,都利用了相同的DnCNN架构设计。卷积神经网络都是由一系列卷积层、修正线性单元(ReLU) [34]和批标准化模块[21]组成,注意,
f
(
S
)
f(S)
f(S)与信噪比成反比,与噪声水平成正比。它是等式(8)中乘以先验的因子。总结一下,f(S)CNN预测
1
/
1
+
S
1/1+S
1/1+S,其中S是输入图像的信噪比(由我们理论设置中使用的噪声水平和图像模型决定),而prior CNN预测公式(7)中定义的
x
ˉ
\bar{x}
xˉ。
与DnCNN不同,DnCNN预测输入噪声图像中的噪声值,然后从噪声输入中减去它们以产生最终的去噪输出,而我们的网络学习等式(8)中函数给出的最佳融合去噪。如图1(b)所示。保留DnCNN的相同深度和容量,以分别学习图像先验和信噪比函数f(S),这是先验和噪声输入图像加权融合所需要的。请注意,信噪比学习也包含一种形式的先验知识,但是方差而不是期望。我们从先前有噪声的输入图像中减去,然后将像素级的结果与信噪比函数相乘。这产生了给定噪声输入的噪声预测,我们从噪声输入中减去噪声预测以获得去噪输出,这种架构在数学上相当于等式(8)。然而,图1(b)的连线允许我们清楚地具有残差学习(residual learning)连接,并保持上述两个网络之间的并行性。
C. Fusion Net Feature Disentangling
根据信噪比模拟图像先验和噪声图像之间的最佳融合,如等式(8)所示。网络结构和损失函数都是适定的。对于融合,网络需要预测每个像素的图像先验
x
ˉ
\bar{x}
xˉ和f(S)(图1(b))。在融合网络的MSE重构损失接近于零的情况下,我们得到真实目标和网络输出近似相等
其中a和b是融合网中中间层的输出,y是噪声输入。具体来说,a是图1(b)中先验CNN的最后一层的输出,b是同一图中f(S)的最后一层的输出,梯度下降收敛后,当MSE重构损失接近于零时,我们得到方程(9)中左右项的近似相等。我们可以把这个方程看作变量y中的一次多项式。对于训练数据集
D
T
D^T
DT中的所有y,我们可以应用系数等式,其中系数是
{
a
b
,
1
−
b
}
\left\{ab,1-b \right\}
{ab,1−b}和
{
x
ˉ
f
(
S
)
,
(
1
−
f
(
S
)
)
}
\left\{ \bar{x} f (S),(1-f(S))\right\}
{xˉf(S),(1−f(S))},因此,我们得到了a和
x
ˉ
\bar{x}
xˉ之间以及b和
f
(
S
)
f(S)
f(S)之间的近似等式。因此,网络中间输出{a,b}分别等于先验和信噪比函数{
x
ˉ
\bar{x}
xˉ,f(S)},MSE重构损失∀
y
∈
D
T
y ∈ D^T
y∈DT接近于零。这延伸到数据集之外的其他y,假设后者足够一般。在Sec III-A中描述的理论设置下,我们可以通过带有专用损失项的显式信噪比学习,进一步将最佳去噪信息纳入融合网络。因此,融合表示,即先前的
x
ˉ
\bar{x}
xˉ 和
f
(
S
)
f(S)
f(S),通过损失函数中预测
f
(
S
)
f(S)
f(S)的惩罚项进一步加强。融合网络的总损失函数
L
f
L_f
Lf由下式给出
α是权重参数,第一项是类似于DnCNN的MSE重构损失,第二项是
f
(
S
)
f(S)
f(S)的重构损失,按照公式(9),
a
b
+
y
(
1
−
b
)
ab+y (1−b)
ab+y(1−b)是融合网络的去噪输出。
因此,融合网络通过学习分别预测图像先验和信噪比函数值,最小化去噪图像上的重建损失。与在训练过程中仅利用真实无噪声图像的DnCNN残差学习网络不同,融合网络还利用了显式信噪比信息。
D. Denoising Non-Gaussian Images
在这里,我们的主要目标是
(1) 通过采用集成在我们的融合网络中的理论融合策略,为真实图像设计一个盲通用图像融合去噪器Blind Universal Image Fusion Denoiser (BUIFD),
(2) 评估BUIFD在训练噪声水平上的去噪性能,
(3) 评估对真实图像的未知噪声水平的泛化能力。
由于真实图像不能用简单的高斯先验建模,我们的用于真实图像的图像融合去噪网络(BUIFD),如图1(c )所示,是通过修改融合部分,从图1(b)所示的理论融合网络改编而来的。我们用可训练卷积层后面的乘积融合步骤来代替最优数学融合。我们使用三个卷积层来学习数据相关的融合函数。最佳融合函数F将被应用于噪声输入图像y,先验预测和噪声水平预测
其中先验预测和噪声水平预测网络函数分别为
f
P
f_P
fP和
f
N
f_N
fN,它们对应的学习参数为
θ
P
θ_P
θP和
θ
N
θ_N
θN,去噪后的估计为
x
^
\hat{x}
x^,直观地说,先验预测网络(
f
P
f_P
fP)用于预测未知实词分布(the unknown real-word distribution)的期望值,从该分布中对给定像素的强度以及每个像素的强度进行采样。噪声水平预测网络(
f
N
f_N
fN)预测噪声水平,用于控制先验和观测之间的加权平均值。当噪声水平较低时,可以给予实际观测更多的权重,而当噪声水平较高时,当前观测不太可靠,融合更多地采用先验估计。
最佳融合因子F可以用三个卷积层模拟的因子
F
^
\hat{F}
F^来近似。然而,我们期望F包含类似于等式(8)的像素级输入间乘法(pixel-wise inter-input multiplications)。由于这种像素级乘法不能用卷积复制,我们将两个额外的输入传递到建模
F
^
\hat{F}
F^的卷积层。这两个额外的输入由下式给出
圈乘是像素级乘法。它们与等式(11)中给出的F的输入相连。产生送到
F
^
\hat{F}
F^的五个不同的输入。这两个额外的输入减少了卷积层的学习负担并提高了去噪性能。注意,我们归一化了
f
N
(
⋅
,
⋅
)
∈
[
0
,
1
]
f_N(\cdot,\cdot)\in[0,1]
fN(⋅,⋅)∈[0,1]。我们将这种逐像素的乘法步骤和附加输入的连接称为乘积融合(如图1©的流水线所示)。这两个融合步骤,也即是乘积融合和三个卷积层,形成
F
^
\hat{F}
F^并实现上述第(1)点,BUIFD的优化损失由下式给出
C是等式(11)和(12)中列出的输入的串联。即
{
y
,
f
P
(
y
,
θ
P
)
,
f
N
(
y
,
θ
N
)
,
f
P
(
y
,
θ
P
)
∗
f
N
(
y
,
θ
N
)
,
y
∗
(
1
−
f
N
(
y
,
θ
N
)
)
}
\left\{y,f_P(y,θ_P),f_N(y,θ_N),f_P(y,θ_P)*f_N(y,θ_N),y*(1-f_N(y,θ_N))\right\}
{y,fP(y,θP),fN(y,θN),fP(y,θP)∗fN(y,θN),y∗(1−fN(y,θN))}x是真实原始图像,
f
n
(
y
,
θ
N
)
f_n(y,θ_N)
fn(y,θN)和N分别是预测和真实噪声水平值,归一化为[0,1]。我们将在下一节详细讨论BUIFD(图1©)和我们的理论贝叶斯网络融合网(图1(b))之间的关系。
E. Relation With the Bayesian Framework
图1(b)中的融合网在理论实验中明确地用贝叶斯解建模关系。下面我们讨论BUIFD(图1©)和贝叶斯解方程(8)之间的关系。我们首先注意到,高斯先验并不能完美地模拟真实图像,因此,我们预计真实图像BUIFD网络(图1©)会偏离其灵感来源的融合网络(图1(b)),以适应真实图像。然而,正如SecIII-D所述,BUIFD和贝叶斯框架之间的关系是非常相关的。
一、等式(12)中的乘积融合明确创建了与贝叶斯方程等式(8)中相同的组件。这种乘积融合基于信噪比对噪声输入和先验知识进行加权,就像贝叶斯融合一样。融合层只有3个没有非线性的卷积层,以确保我们的贝叶斯项大部分发生相加融合,具有局部平滑,并且尽可能保留与贝叶斯解的关系。
其次,我们不预测像素强度概率分布意义上的图像先验,而只预测未知分布的期望均值。在文献中,先验往往是图像梯度的概率分布,但我们的定义是相当独特的。我们的先验知识是,对于每个像素,采样像素强度的分布的期望值。即使是无噪声图像,也不能确切知道每个像素的分布(也不能知道它的平均值)来评估这个定义在真实图像的BUIFD网络中仍然受到尊重的程度。然而,所有其他贝叶斯成分是一致的,经验结果也是如此。在理论实验中,我们在看不见的噪声水平70下提高了3.30分贝,而在真实图像BSD68实验中,我们在噪声水平75下提高了约3分贝。
我们希望我们的方法能够激励未来的工作,在理论实验上分析深度网络的最优性,这些理论实验的设计使得最优解是已知的,并且能够激励从贝叶斯解决方案中得到启发的深度网络设计。
experimental evalution
A. Fusion Net Experimental Setup
根据Sec. III-A中定义的高斯图像先验的理论假设,使用综合生成的数据来训练(和测试)网络。训练数据由20多万个大小为40×40像素的面片组成。按照高斯图像先验假设,训练数据的图像像素强度是从
N
(
127
,
252
)
N(127,252)
N(127,252)中随机抽取的,并且在通过除以255以及在添加噪声时将间隔之外的所有值裁剪到间隔的更接近边界之前,所有值被归一化为[0,1]。对于测试数据,使用大小为256 × 256像素的256幅图像,并且它们是用与训练数据相同的过程创建的。
我们使用尺寸为128的小批量为50 epochs训练网络。我们使用Adam优化器[22],初始学习率为0.001,每30个epochs衰减10倍,其余参数设置为默认值。等式(10)中的权重α设置为0.1。我们用多级噪声训练网络。在训练期间,在区间[5,25]内随机均匀地选择加性高斯噪声的标准偏差。在每个epochs结束时,按照相同的程序对噪声分量进行重新采样,但不对地面真实图像进行采样。对于测试阶段,在测试图像上评估网络,其中添加的噪声也是高斯噪声,具有给定的标准偏差。
B. Fusion Net Evaluation
第一行给出的噪声标准装置的测试集PSNR(分贝)结果。网络是在[5,25]中随机选择的噪声水平上训练的。在训练过程中看不到表右半部分的噪音水平。我们还报道了最优贝叶斯去噪(最佳融合)。最后一行显示了DNCNN和我们的融合网络之间的独立双样本T检验结果。双尾p值验证了DNCNN和融合网在训练噪声水平上的平均PSNR相等的零假设,显著性水平为0.05
表一给出了我们的融合网络DnCNN的PSNR结果以及最优上界。最优上界去噪性能是等式(8)中最优数学解的性能。我们可以看到,DnCNN和Fusion Net在训练噪声水平上的表现相似(表的左半部分),非常接近最优。
为了验证结果在统计上确实相似,我们分析了PSNR值在整个测试集中的分布,双边T检验(独立双样本T检验)用于评估两个网络的PSNR结果具有相似期望值的零假设,选择这个测试是因为我们有测试数据集定义的完全相同的样本大小,并且PSNR结果的方差非常相似。T检验结果在表一的最后一行给出,零假设适用于表左半部分的所有配置(显著性水平为0.05,即p值≥ 0.05),这表明,融合网络,尽管模拟最佳去噪融合的建模和学习信噪比值的附加训练信息,表现类似于DnCNN。后者因此具有足够的容量,并学习最佳去噪。然而,这仅适用于网络在训练期间观察到的噪声水平,如表1的左半部分所示。零假设的置信度随着测试噪声水平的增加而降低。在显著性水平高于0.053的情况下,对于噪声水平25,零假设甚至会被拒绝。
表一的右半部分报告了任何网络都没有训练的大于25的噪声水平的评估结果。对于这些较大的噪声水平,零假设被非常明确地拒绝,因为DnCNN和我们的融合网之间的性能差距越来越大。当存在PSNR缺口时,p值迅速降至零,因为我们的结果中方差非常小。融合网络更好地概括了看不见的噪声水平,甚至在高达60级的噪声水平下表现接近最佳。噪声水平越大,融合网和DnCNN的性能差距就越大。尽管两种网络在训练噪声水平上都表现良好,但融合网络学习到了一个更通用的模型,并且在看不见的噪声水平上明显优于前者。
C. Real-Image Experimental Setup
我们使用DnCNN作者引用的实现和相同的数据集,如Sec. III-D节所述。我们的先验预测网络的结构与DnCNN等同,所有的网络细节都可以在[59]中找到,我们省略了重复。因此,在图1©中的先验预测网络(18个主要块)中使用相同的网络深度和特征层。噪声级网络是一个较浅的网络,由5个类似用于先前预测值的块组成,每个块都是一个卷积,一个批处理归一化和一个ReLU,我们在噪声水平预测器上附加一个卷积,随后是逻辑sigmoid函数的应用,以获得归一化的 f N ( ⋅ , ⋅ ) ∈ ( 0 , 1 ) f_N(\cdot,\cdot)\in(0,1) fN(⋅,⋅)∈(0,1)。因此,通过除以最大训练噪声水平,噪声水平值在训练期间被映射到范围[0,1]。接近最终融合的三个卷积层有16个通道。BUIFD和DnCNN网络都使用相同的训练参数和优化设置进行训练,类似于SecIV-A,除了patch size。为了完整起见,我们提供了训练超参数的所有细节。我们使用Adam优化器[22],初始学习率为0.001,每30个时期衰减10倍,其余优化器参数设置为默认值,每个网络被训练了50个epochs,不同损失的进展可以在图2中看到。我们在训练图像上使用50 × 50的patch size,步长为10。训练小批量大小设置为每个小批量128个patchs。基于噪声水平,添加的噪声来自给定标准偏差的高斯分布,该标准偏差是从指定范围随机均匀采样的(具体在 Sec IV-D),并且对于给定训练片中的所有像素都是相同的。我们使用DnCNN的训练超参数,为了训练它和训练BUIFD,超参数不为BUIFD调整。噪声水平预测器在BUIFD内联合训练,因此在Sec IV-D的实验中,两个网络分支总是看到彼此相同的训练数据(具有相同的模拟噪声分布)。我们使用400张伯克利图像[7],[43]进行灰度训练,使用432张彩色伯克利图像进行彩色训练,如[59]所示。灰度和彩色网络保留了相同的架构。
D. Real-Image Evaluation
灰度去噪评估是在取自[32]的标准伯克利68图像测试集(BSD68) [41]上进行的。表二报告了我们的融合方法和最先进的盲DnCNN的结果,当它们都在高达55或高达75的噪声水平下训练时。请注意,对于训练到噪声水平55的融合方法,我们将训练期间的最大网络预测值1映射到55,而不是最大测试噪声水平,以便进行更公平的比较。还报告了盲版BM3D和非盲版BM3D的结果,后者在推断时给出了正确的测试噪声水平,以供参考。我们将所有有噪声的测试图像限制在[0,255]的范围内,因为实际上不存在负强度或超过255的值。
图3显示了我们的中间特征结果、先验值和噪声水平值,以及去噪结果。去噪图像是通过将有噪声的输入图像与网络导出的先验值和噪声水平值融合而产生的。通过产品融合步骤和三个卷积层来进行融合。在实际应用中,去噪后的输出被削波至[0,255],噪声输入图像也是如此。与DnCNN相比,我们的结果在低频区域更好地去除了噪声,在高频区域更好地重建了细节。我们注意到,在高噪声水平下,在低频区域周围存在最明显的模糊效应(图3 (k)和(l)),这会产生模糊和有噪声的边缘。
这些都是由两个网络创建的,但是在我们的结果(k)中更突出,因为它比(l)更少噪声。高斯噪声的噪声水平和标准偏差越高,平均样本的数量需要越大,使得统计平均值收敛到零。这使得跨小块的噪声的局部平均值在零附近随机地从一个区域到另一个区域变化,并导致类似污迹或类似波浪的效果(注意在低频区域,几乎所有这些伪像都具有曲线形状,而不是线性形状,线性形状是由它们周围的各种不同平均值建模的)。
如表二所示,我们的融合方法在从15-20°开始的每一个噪声水平上都改善了PSNR,包括两个训练范围的可见水平。比较在所有噪声水平上训练的DnCNN75和BUIFD75,我们还注意到我们的方法提高了0.7分贝,平均提高了0.36分贝。我们的版本在所有噪声水平上训练时,甚至比非盲版本的BM3D平均提高了0.25分贝,并且当仅训练到55级时,我们的表现与非盲BM3D一样好。比较表二中DnCNN55and和BUIFD55的结果,对于范围(55,75)中的未看到的噪声水平,我们看到融合方法对未看到的噪声水平的概括确实适用于真实图像。75级的多个PSNR点的改进与我们在表一的合成实验中获得的一致。
表三中的结果说明了用空间变化的噪声水平去噪图像,而不重新训练网络。噪声以随行线性增加的水平添加到图像中。对于非盲BM3D,我们输入平均噪声水平作为指导。BUIFD网络可以处理空间变化的噪声,既没有训练先验的,也没有训练噪声水平预测网络分支。它在所有噪声设置上都优于DnCNN,无论网络是在全范围内训练还是仅在55级训练。
对于彩色图像去噪,我们使用标准彩色版本的BSD68 (CBSD68)进行测试。在通过去噪方法运行噪声之前,模拟噪声并将其添加到每个测试图像。表四报告了PSNR的结果,对于彩色图像去噪,我们使用标准彩色版本的BSD68 (CBSD68)进行测试。在通过去噪方法运行噪声之前,模拟噪声并将其添加到每个测试图像。表四报告了PSNR的结果。RGB颜色通道之间的高通道间相关性[13]允许所有方法与灰度图像相比,在彩色图像的PSNR去噪方面表现得更好。
我们注意到,在彩色成像中具有多个相关通道的优势并不总是可用的,例如单波长成像[29]。我们假设这种相关性也使得网络能够隐含地学习噪声水平预测。高相关性意味着网络看到多个近似相等的数据样本,这些样本具有来自同一分布的不同噪声实例。因此,它更容易学习噪声方差的估计。因此,当训练到噪声水平55时和训练到噪声水平75时,两个网络中的每一个或多或少地执行相同的操作。然而,对于两个训练噪声范围,我们的融合方法在每一个噪声水平上都始终优于CDnCNN。我们相对于CDnCNN的平均改进约为0.1分贝。请注意,平均而言,CDnCNN的网络性能甚至比非盲CBM3D高约0.5分贝,我们的CBUIFD高约0.6分贝。
灰度和彩色图像的样本图像去噪结果分别在图4、图5和图6、图7中示出,针对非盲BM3D和在全范围噪声水平上训练的盲网络DnCNN和BUIFD。BM3D和DnCNN的结果之间的主要权衡是细节重建。非盲BM3D实现了良好的PSNR重建,但代价是结果模糊。这导致细节(在图4中的大岩石上可见,在图5中的放大插入物上可见)和边缘锐度的损失(在图4的放大插入物中的湖的边界上可见)。DnCNN的结果受到较少的模糊问题,但是在某些区域,例如平滑表面(在图4中放大插入的湖的内部区域可见)中,噪声去除不是最佳的。就这种权衡而言,我们的方法取得了良好的性能,BUIFD获得了良好的PSNR结果,与非盲BM3D相比模糊明显减少(例如,见图5)。
E. Extended Benchmark Comparisons
我们在不同的基准数据集上进行了更多的去噪实验,并比较了不同去噪方法在这些数据集上的结果,我们在BSD68数据集、Set5、Set14、Sun_Hays80、Urban100和Manga109数据集上报告了噪声水平为10到80(步长为10)的盲去噪结果。Set5和Set14分别由5幅和14幅传统上用于测试图像处理算法的图像组成。他们的图像大多小于512×512。Sun_Hays80数据集由[46]中显示的80幅图像的高分辨率版本组成,大小小于1024 ×1024。Urban100数据集是使用城市关键词从Flickr拍摄的100幅高分辨率图像的集合[20]。Manga109数据集由109幅专业艺术家的图纸[33]组成,尺寸为827 × 1170。我们在表5中给出了盲非学习方法BM3D、EPLL [64]、KSVD [1]和WNNM [17]的去噪结果,这些方法是为高斯去噪而开发的,并且为了实施盲设置,给出了由非盲BM3D(设置为25)设置的默认噪声水平,以及基于学习的方法DnCNN [59]和BUIFD,用于对添加了10到80的高斯噪声水平的图像的亮度去噪。我们还评估了另一种基于学习的方法,其训练超参数与DnCNN的训练超参数相同,即MemNet架构[47],并将我们的融合技术扩展到该架构,并将其称为BUIFD(M)。它是按照图1©构建的,不同的是MemNet体系结构取代了DnCNN的体系结构,用于前预测CNN。本节中所有基于学习的方法都被训练到噪声级55。表五显示了每种方法的PSNR和SSIM指标,我们用粗体突出显示了DnCNN和BUIFD之间以及MemNet和BUIFD(M)之间的最佳PSNR和最佳SSIM方法。图8显示了取自集合14的视觉结果样本。
conclusion
我们定义了一个理论框架,在这个框架下,我们导出了一个最优去噪解决方案,我们称之为融合去噪。我们将其集成到深度学习架构中,并与最佳数学解决方案和最先进的盲通用denoiser DnCNN进行比较。我们的合成实验结果表明,我们的融合网络可以更好地推广到更高的未知噪声水平。我们学习一个数据相关的融合函数,使我们的融合去噪网络适应真实图像。我们的盲通用图像融合去噪网络BUIFD提高了训练噪声水平和未知噪声水平下最先进的真实图像去噪性能。