基于GAN生成对抗网络的图像去噪及去噪原理的探究
摘要:把高频的噪声在傅里叶频谱上和低频的图像很好地分离开。通过一系列高频滤波的理论与技术,达到图像降噪的目的。本文提出了一个基于GAN思想的编码(encoder)-解码(decoder)架构来解决图像去噪的问题。网络由判别网络和生成网络组成,半监督学习从噪声图像到去噪图像的端到端的映射。在生成网络中,在全卷积的情况下,噪声一步步地被消除,最后得到去噪图像。
关键词: 图像去噪 GAN 神经网络
在城市夜景拍摄或者星空拍摄中 ,会产生大量的噪点,这是由于高ISO和弱光散粒形成的随机噪点。图像噪点很大一部分原因是因为感光元件造成的。例如照片曝光度不足、采取了过高的ISO值等都会导致图像噪点的增多。
图像噪声的定义指存在于图像数据中的不必要的或多余的干扰信息。而从某个方面上来讲,感光元件上的噪点是永远存在的,我们能做的就是通过技术手段,降低图像的噪声,提高图像质量。提到图像降噪,不得不先说一下信号的概念,在生活中我们会经常看到信号的字眼。什么是信号?信号是随着时间或者空间变化的序列。图像是一个二维信号,随着x,y两个空间维度变化。
根据傅立叶定理,任何一个信号都可以由简谐波相加得到。因此,一个信号可以分解成由多个频率的简谐波相加。组成信号的单个简谐波,被称为信号的一个分量。通过傅立叶变换,可以得到一个信号的不同频率的分量。将各个频率分量的强弱通过图形表示出来,可以得出信号的频谱。如下图是一副图像处理领域里经典的一张图像,其信号值可以用它的黑白分量代替。右边是该图像对应的傅里叶频谱。明暗程度表示频率分量的振幅强弱。X轴、Y轴分别对应表示图像x方向的频率和y方向上的频率,值得注意的是,频谱的中心位置亮点表示的是低频信号的分量强弱,频谱边缘及四周表示的是高频信号的分量强弱。
图1 图像与对应频谱图
对该图像加入随机噪声,我们发现,在图像里,出现了很多和原图像混在一起的小颗粒效果,这些“小颗粒”正是最直观的图像噪点的体现。此时,观察噪点图像的傅里叶频谱图可以发现,频谱非中心区域明显变亮,这说明图像中的高频分量有所增强。由此,可得出噪点正对应着图像中的高频分量,而原图像对应着图像中低频分量的特性。噪点在空间上原本与原图像混合在一起,难以去除。然而根据上述特性,我们可以把高频的噪声在傅里叶频谱上和低频的图像很好地分离开。运用数学原理,建立合理的数学模型,即通过一系列高频滤波的理论与技术,达到图像降噪的目的。
图2 加了噪声的图像与对应频谱图
近几年来,随着ISP影像处理器的AI化,越来越多的深度学习方面的算法,被应用到后端图像处理上,来弥补因传统感光元器件在夜景拍摄、自动美化方面的缺陷而造成的图像噪点。
本文根据上述基础,提出了一个基于GAN思想的编码(encoder)-解码(decoder)架构来解决图像去噪的问题。网络由判别网络和生成网络组成,半监督学习从受损图像到原图像的端到端的映射。判别网络主要由多层卷积层和反卷积层构成,负责特征提取,捕获图像内容的抽象信息,判断输入图片中是否含有大量噪声。相对应,生成网络中也采取了卷积层和反卷积层用来恢复图像细节,同时提取并消除噪声。除此之外,网络中还加入了残差网络。我们通过向模型输入一个带有噪声的图片,在输出端给模型没有噪声的图片,让模型通过卷积自编码器去学习降噪的过程[1]。
在生成网络中,在全卷积的情况下,噪声一步步地被消除。经过每次卷积后,噪声信息减小,图像内容的细节虽可能会随之丢失。但由于有判别网络的存在,可以鉴别图像的“真假优劣”,生成网络最后的输出结果会保留主要的图像内容。并且在生成网络中也加入反卷积层,用来补偿细节信息。通过我们的去噪网络,可以达到良好去噪效果的同时较好地保留图像细节。网络的架构如下图,其中判别网络和生成网络均为如下结构:
图6 去噪网络模型
解决图像去噪这个经典又困难的问题,还有很多的路要走。降噪一直是图像视频处理领域很基础很热门的问题,虽然其有数以千计的论文的理论研究,但其基于深度学习的降噪技术却极少在实际产品中有效地应用,这方面的研究还需继续深入开展。