摘要

单个图像去雾是后续高级计算机视觉任务的关键图像预处理步骤。 然而,由于其不适性,它仍然具有挑战性。现有的除雾模型往往会遭受模型过于复杂和计算效率低下或表示能力有限的困扰。 为了应对这些挑战,在这里,我们提出了一种快速准确的多尺度端到端除雾网络,称为FAMED-Net,该网络包括三个尺度的编码器和融合模块,可以有效且直接地学习无雾图像。 每个编码器均由级联且密集连接的逐点卷积层和池化层组成。 由于不使用更大的卷积内核,并且逐层重用功能,因此FAMED-Net轻巧且计算效率高。 对公共合成数据集(包括RESIDE)和真实世界的模糊图像进行的深入实证研究表明,FAMED-Net在模型复杂性,计算效率,恢复准确性和交叉集泛化方面优于其他代表性的最新模型。 该代码将公开提供。

关键词:去雾,图像恢复,逐点卷积,深度神经网络。

引言

在朦胧条件下捕获的图像通常会受到由大气中的浮尘(例如灰尘,薄雾和烟尘)引起的吸收和散射效应的影响,这可能导致对比度低,图像模糊和嘈杂。 这种降低的图像质量可能会挑战许多后续的高级计算机视觉任务,例如,对象检测和分割。 因此,消除雾度并改善图像质量有益于这些应用,使图像去雾成为广泛研究和实际关注的主题。

具体而言,图像雾度去除或除雾是指从单个或多个观察到的雾度图像恢复无雾度图像的技术。 已经提出了许多除雾方法,可以将其归类为:

  1. 使用辅助信息,例如场景深度和极化

  2. 使用一系列捕获的图像

  3. 使用单个模糊图像作为除雾时的模型输入。

其中,无需其他信息即可对单个图像进行除雾具有最大的实际优势。 然而,作为典型的不适定问题,单图像去雾仍然具有挑战性并且需要改进。

雾的存在导致在成像期间发生的对应于吸收效应的衰减项和对应于散射效应的散射项的组合。 这两个术语都与中间变量(即传输)有关,中间变量取决于场景深度。 一种可行的除雾解决方案是估计透射率,然后通过反转衰减和散射来恢复清晰图像。 已经提出了许多单个图像去雾方法,它们使用手工特征(例如,不同的图像先验)或基于学习的特征来估计雾度传输。

例如,He等提出了一个简单有效的暗通道,用于单幅图像去雾,它假定清晰图像中所有光谱通道(“暗通道”)的最小值接近于零。 该方法有效地估计雾度透射率。 但是,暗通道先验可能不适用于某些特定场景,例如类似于大气光的白色物体,因为它会低估透射率并导致过度模糊的伪像。 Zhu等提出了一种颜色衰减先验,假设场景深度和雾度浓度之间呈正相关,这由饱和度减去场景亮度来表示。 然后,基于上述先验,通过回归线性模型可以容易地估计场景深度和雾度传输。 最近,Berman等人。提出了一个非局部先验,其前提是,可以通过在RGB空间中紧密聚集的一些不同颜色来近似清晰图像中的颜色。 受雾度影响,由于群集像素的透射系数变化,每个群集在RGB空间中成为一条线(雾线)。因此,根据这些雾度线来估计透射和清晰图像。 尽管基于先验的方法通常对于许多场景都简单有效,但是它们共享描述特定统计信息的共同局限性,这可能不适用于某些图像。

基于学习的方法采用数据驱动的方法来学习特征与传输之间的线性/非线性映射,因此克服了特定先验方法的局限性。例如,Tang等提出从与雾霾相关的特征(包括暗通道,局部最大对比度,色相差异和局部最大饱和度)中基于随机森林学习回归模型。 他们使用合成数据集训练了模型,并在合成和现实世界的朦胧图像上对其进行了测试,然后在随后的基于学习的方法中成为了惯例。 随后以三种方式扩展了基于学习的除雾思想:

  1. 更强大的学习模型
  2. 更有效的合成方法和更大的数据集
  3. 端到端建模/培训

深度神经网络现已成功应用于许多计算机视觉任务,包括对象识别,检测和语义分割。 通过利用它们强大的表示能力和端到端学习,提出了许多基于深度卷积神经网(CNN)的图像去雾方法。 例如,Cai等提出了一种端到端的可训练的深度CNN模DehazeNet,以直接从模糊图像中学习传输,它优于当代的基于先验的方法和随机森林模型。Ren等人提出了一种多尺度CNN(MSCNN),以完全卷积的方式学习传输图,并探索了一种从粗到细回归的多尺度架构。

尽管基于CNN的方法有效,但仍需要单独的步骤来估计大气光。最近,Zhang和Patel 提出了一个端到端的密集连接的金字塔除雾网络(DCPDN),以共同学习透射图,大气光和除雾。 他们采用了带有多层金字塔池模块的编码器-解码器体系结构来学习多尺度特征。 他们还利用基于生成对抗网络的对抗损失来监督除雾网络。 Li等人,而不是估计中间传输。 提出了一种端到端的CNN模型,称为全合一除雾网络(AOD-Net),用于从朦胧的网络中学习清晰的图像。 他们通过重新构建模糊成像模型,将透射光和大气光整合到一个变量中。 Ren等人 Li等人通过采用编码器-解码器架构提出了门控融合网络(GFN)。也有人设计了一种编码器-解码器架构,但是基于条件生成对抗网络(cGAN)来端对端地学习去雾图像。 尽管cGAN和DCPDN取得了良好的除雾效果,但它们包含数十个卷积层,大小约为200 MB,使它们笨拙,不太可能应用于计算机视觉系统的资源受限环境。

在本文中,我们旨在为单图像去雾开发一个快速,准确的深度CNN模型。 我们使用完全卷积和端到端的训练/测试方法来有效处理任意大小的模糊图像。 为此,我们提出了一种称为FAMED-Net的快速,准确的多尺度除雾网络,该网络包括三个尺度的编码器和可直接学习无雾图像的融合模块。 每个编码器通过密集连接的机制由层叠的逐点卷积层和池化层组成。 由于没有使用更大的卷积内核,并且功能已逐层重用,因此FAMEDNet轻巧且计算效率高。 对公共合成数据集和真实世界的模糊图像进行的深入实证研究表明,FAMED-Net在模型复杂性,计算效率,恢复精度和交叉集泛化方面优于代表性的最新模型。 该代码将在https://github.com/chaimi2013/FAMED-Net上公开提供。

本文的主要贡献可归纳如下:

  • 我们设计了一种新颖的多尺度端到端除雾网络,称为FAMED-Net,该网络隐式学习了有效的统计图像先验知识,可以从单个图像中快速准确地去除雾霾。
  • FAMED-Net充分利用逐点卷积作为构建编码器-解码器体系结构的基本单位,该模型尺寸小且计算效率高。
  • FAMED-Net在合成基准测试和真实模糊图像方面均优于最新模型。

相关工作

大气散射模型

朦胧条件下捕获的图像可以用数学公式表示为:

公式1Iλ(x)=Jλ(x)t(x)+Aλ(1t(x))I^{\lambda}(x)=J^{\lambda}(x) t(x)+A^{\lambda}(1-t(x))

其中II是观察到的模糊图像,JJ是场景辐射度,AA是假定为全局常数的大气光,tt是雾度透射率,xx表示像素位置,λ\lambda并且表示光谱通道,即λ{r,g,b}\lambda \in\{r, g, b\}。 第一项称为衰减项,代表对场景辐射的雾度吸收效应,而第二项称为散射项,代表对环境光的雾霾散射效应。 tt描述到达相机传感器的场景辐射的比例,“透射率”也取决于场景深度。 在均匀雾度假设下,透射率可以表示为:

公式2t(x)=eβd(x)t(x)=e^{-\beta d(x)}

其中β\beta表示介质衰减系数,dd为场景深度。

最近,Li 等人重新计算公式1成像模型通过将透射光和大气光积分到单个变量K中:

公式3Kλ(x)1T(x)(Iλ(x)Aλ)+(Aλ1)Iλ(x)1K^{\lambda}(x) \triangleq \frac{\frac{1}{T(x)}\left(I^{\lambda}(x)-A^{\lambda}\right)+\left(A^{\lambda}-1\right)}{I^{\lambda}(x)-1}

公式4Jλ(x)=Kλ(x)Iλ(x)Kλ(x)+1J^{\lambda}(x)=K^{\lambda}(x) I^{\lambda}(x)-K^{\lambda}(x)+1

他们设计了一个端到端网络(AOD-Net),该网络学习从原始模糊图像到场景辐射度的直接映射。

基于先验和基于学习的图像去雾方法

公式1中的大气散射模型可以看出。给定观察到的模糊图像 I,恢复场景辐射是不适当的。 已经提出了不同的图像先验来约束无雾图像并使估计易于处理,包括暗通道先验,颜色衰减先验和非局部先验等。 暗通道的每个像素值是指以每个像素位置为中心的每个色块上的最小像素值。 Fig. 1.显示了清晰和朦胧图像上暗通道的示例。 可以看出,清晰图像的暗通道除明亮的天空区域外几乎所有地方都是暗的,而朦胧图像的暗通道则由于雾散射效应而显露出雾面纱(相当于公式1中的第二项). 基于暗信道先验,可以从暗信道图有效地估计传输。 值得注意的是,即使暗通道的像素值是通过滑动窗口的方式局部计算的,也显示出朦胧的密度(与场景深度有关)(请参见红色框指示的区域和相应值)。 可以解释如下:

  1. 与场景深度直接相关的衰减和散射的雾度效应,可以描述为大气中从清晰像素到朦胧像素的像素到像素(即局部)映射。
  2. 暗通道先验揭示了清晰图像的固有局部统计特性。我们的方法还以局部方式解决了除雾问题,该方法隐含地学习了统计图像,这将在第IV-C.4节中演示。

image-20200926193420442

为了克服基于先验方法的局限性,自Cai等人以来,已经提出了许多基于深度CNN的数据驱动除雾模型。DehazeNet,MSCNN ,AOD-Net ,FPCNet ,DCPDN ,GFN,cGAN 和近端DehazeNet。 这些可以归类为:

  1. 使用CNN估计t

  2. 直接了解场景辐射的端对端。

我们提出的方法属于后一类,部分受到AOD-Net 和FPCNet的启发。 与AODNet相比,我们提出了完全逐点CNN回归K并产生更强的表示能力。 与FPCNet相比,我们提出:

  1. 端到端模型直接回归场景辐射度

  2. 处理尺度差异的多尺度体系结构,其结果比FPCNet好得多,同时保持了较低的模型复杂度和较高的计算效率

  3. 一种新的培训/测试策略,无需进行预处理改组步骤。

相比于MSCNN,其中将粗尺度的预测用作更精细尺度的输入的一部分,该方法采用了高斯金字塔结构,并遵循了后期融合策略。 它比MSCNN产生更好的除雾效果,并且运行速度更快。 与最近提出的DCPDN和cGAN相比,我们的模型更紧凑,即小于90 kb,同时具有较高的恢复精度和计算效率。

多尺度金字塔体系结构

金字塔结构是计算机视觉领域中用于多分辨率图像表示和多尺度特征表示的基本思想,例如,高斯金字塔,拉普拉斯金字塔,小波和SIFT 。利用这一经典思想,CNN通过堆叠的卷积层和空间池化层产生一个特征金字塔。 最近,针对低级和高级计算机视觉应用,已经设计了不同的多尺度图像或特征金字塔体系结构,包括用于图像超分辨率的深拉普拉斯金字塔网络,使用拉普拉斯金字塔分解的DeepExposure ,深度生成图像 模型,拉普拉斯金字塔重建对抗网络,使用图像金字塔进行语义分割的Deeplab 和用于目标检测的特征金字塔网络。 我们的方法还采用了高斯/拉普拉斯金字塔体系结构进行多尺度融合(请参见Fig. 3aFig. 3b)。 与上述方法相比,建议的FAMED-Net专为单图像去雾而设计。 此外,它充分利用了点式卷积,而不是使用具有大内核的卷积来构建轻量级且计算效率高的网络。

image-20200926194138029

深度监督

Xie和Tu最初在开创性工作中提出了在深度神经网络中的中间层上添加辅助监督的方法,也称为深度监督。 通过允许错误信息从多个路径反向传播并缓解深度神经网络中梯度消失的问题,该技术有助于进行多尺度和多层次的特征学习。 在接下来的工作中,深度监督已在不同领域得到广泛采用,例如用于语义分割的Deeplab ,用于图像去雾的MSCNN ,用于图像超分辨率的LapSRN 等。我们还对经过去雾的对象添加了监督 通过运用深入的监管理念,在各个层面上树立形象。

用于单图像除雾的FAMED-NET

解决病态去雾问题的概率论

公式1公式4可以被重写为:

公式5(Iλ(x)Aλ)=(Jλ(x)Aλ)t(x)\left(I^{\lambda}(x)-A^{\lambda}\right)=\left(J^{\lambda}(x)-A^{\lambda}\right) t(x)

公式6(Iλ(x)1)=(Jλ(x)1)1Kλ(x)\left(I^{\lambda}(x)-1\right)=\left(J^{\lambda}(x)-1\right) \frac{1}{K^{\lambda}(x)}

对上述方程式的两边应用对数运算可得出以下一般形式:

公式7y=x+zy=x+z

其中y是观察到的退化图像,x是地面无雾图像,z是与退化过程相关的中间变量。 可以使用最大后验估计(MAP)估计x和z .

公式8

(x,z)=argmax(x,z)p(x,zy)=argmax(x,z)p(yx,z)p(x,z)Xp(yx,z)p(x,z)dxdz=argmax(x,z)p(yx,z)p(zx)p(x)\begin{aligned} \left(x^{*}, z^{*}\right)=& \underset{(x, z)}{\arg \max } p(x, z \mid y) \\ =& \arg \max _{(x, z)} \frac{p(y \mid x, z) p(x, z)}{\iint_{X} \int p(y \mid x, z) p(x, z) d x d z} \\ &=\underset{(x, z)}{\arg \max } p(y \mid x, z) p(z \mid x) p(x) \end{aligned}

pyxzp(y | x,z)是数据似然度,它对应于测量重建误差的数据保真度项。 当使用 L2 损失来监督网络训练时,它的确假设了关于重构误差的正态分布(请参阅第III-B节和**Fig. 2.**中的黄色圆圈)。 L1损失也可用于强制执行稀疏约束。pzxp(z | x)是在无雾的清晰图像上调节的 z 的条件分布。 例如,DCP 假设pDarkChannelxp(DarkChannel | x)(即p1txp(1- t | x))集中在零上。 就像DehazeNet和AOD-Net一样,网络可以隐式学习ptxp(t | x)p(Kx)p(K | x),正如我们在IV-C.4节中所展示的。 p(x)是x的先验分布,由于自然图像(局部光滑区域和稀疏突变边缘)中的空间连续性,通常假定为长尾。 马尔可夫随机场或简单的滤波器(如导引滤波器)用于对空间连续性进行建模。

基于以上分析,关键是构建一个可以有效学习统计规律的模型。可以通过点状卷积有效地学习自然图像中的统计规律,点状卷积是紧凑的并且可以防止过度拟合。 在文献[21]的启发下,我们设计了一种新颖的端到端全点式CNN用于单图像去雾。

image-20200926200445137

单尺度FAMED-Net:FAMED-Net-SS

Fig. 2所示,该网络旨在学习公式中的重新设定的公式3中的变量K。 根据公式4恢复场景辐射度。 有五个逐点卷积层,其中前四个形成 K 编码器,最后形成解码器。 对应于不同接受场的特征通过密集连接重用(请参见Fig. 2中的黑弧和立方体)。 从数学上讲,这可以表示为:

公式9fl+1=φl+1(concat(fkkΛl+1)),l[0,4]f^{l+1}=\varphi^{l+1}\left(\text {concat}\left(f^{k} \mid k \in \Lambda^{l+1}\right)\right), \quad l \in[0,4]

其中fkf^k表示从第 k 个块中学习到的特征。我们将输入表示为第 0 个块,大小为H×W×3的模糊图像表示为f0f^0,将第5个块中的解码特征表示为K,即Kf5K \triangleq f^{5}Λl+1\Lambda^{l+1}表示索引集 ,它通过密集连接(concat)索引第(l + 1)个块使用的特征图,即Λ1={0},Λ2={1},Λ3={1,2},Λ4={2,3},Λ5={1,2,3,4}\Lambda^{1}=\{0\}, \Lambda^{2}=\{1\}, \Lambda^{3}=\{1,2\},\Lambda^{4}=\{2,3\}, \Lambda^{5}=\{1,2,3,4\}φl+1\varphi^{l+1}表示通过卷积层,批归一化层,ReLU层和池化层的组合学习的第(l + 1)个块中的映射函数。

在每个卷积层之后,我们利用具有不同内核大小rl×rl(r^l×r^l)的池化层来聚合接收字段内的多级统计量(特征),即rl=2l1l[14]r^l = 2l-1,l∈[1,4]。 值得注意的是,通过结合使用点式卷积层和rl×rlr^l \times r^l池化层,输出节点的接收场为rl×rlr^l×r^l,相当于仅使用rl×rlr^l×r^l卷积层的接收场。这样,我们保留了神经网络用于统计建模的表示能力,但使用的参数较少,从而导致了更紧凑的体系结构。 此外,在最后的第5个块中不使用合并层和批处理归一化层。 由于使用1×1内核进行池化是微不足道的,因此将其省略。卷积层和池化层中的步幅都设置为1以保留要素图的大小。 K编码器中的输出特征通道保持为32,即flRH×W×32,l[1,4]f^{l} \in R^{H \times W \times 32}, l \in[1,4](请参见Fig. 2中的蓝色立方体)。 然后,根据公式4,使用解码的K图来恢复场景辐射.(请参阅Fig. 2中的黄色圆圈)。 该结构表示为FAMED-Net-SS,其中“ SS”代表单刻度。

在训练过程中,我们使用L2损失来监督网络:

公式10w=argminJJ(I;w)2+λw2w^{*}=\arg \min \|J-J(I ; w)\|^{2}+\lambda\|w\|^{2}

其中JI;wJ(I; w)是估计的场景辐射度,w表示网络的可学习参数,λ\lambda是正则化项中的权重衰减因子。

FAMED-Net的多尺度变体:FAMED-Net-GP和FAMED-Net-LP

距离不同的对象在捕获的图像中具有不同的大小,从而导致透射图或K图中的大小可变的同质区域。 为了处理多尺度特征,我们采用如Fig 3a所示的高斯金字塔结构,将建议的网络扩展到多尺度。 我们将输入的模糊图像下采样到另外两个比例,即分别为1/2比例和1/4比例。 然后,我们为每个音阶构造一个K编码器而无需共享权重。 此外,从粗比例尺估计的K图被插值到原始比例尺,并串联为:

公式11Kconcat[K1;K2×2;K3×4]K_{\text {concat}} \triangleq\left[K_{1} ; K_{2} \uparrow \times 2 ; K_{3} \uparrow \times 4\right]

其中Ks×m,s[2,3],m=2(s1)K_{s} \uparrow \times m, s \quad \in \quad[2,3], m=2(s-1)表示插值的K映射。 双线性插值用于下采样和上采样。 然后,我们引入一个融合模块,将多尺度估计融合到一个更可靠的模型中,该模块再次由1×1卷积层和ReLU层 φ6\varphi^{6}实现,如下所示:

公式12Kfusion=φ6(Kconcat)K_{f u s i o n}=\varphi^{6}\left(K_{\text {concat}}\right)

最后,根据公式4,使用KfusionK_{fusion}来恢复场景辐射。该结构表示为FAMED-Net-GP,其中“ GP”代表高斯金字塔。

L2损失用于监视网络:

公式13

w=argminws=1,2,3αsJsJs(I;w)2 +αfusionJ1Jfusion(I;w)2+λw2\begin{aligned} w^{*}=\underset{w}{\arg \min } \sum_{s=1,2,3} \alpha_{s}\left\|J_{s}-J_{s}(I ; w)\right\|^{2} \ +\alpha_{f u s i o n}\left\|J_{1}-J_{f u s i o n}(I ; w)\right\|^{2}+\lambda\|w\|^{2} \end{aligned}

其中JsJ_sJsI;wJ_s(I; w)代表地面真实情况和各个尺度下的估计场景辐射率, JfusionI;wJ_{fusion}(I; w)代表来自融合模块的估计场景辐射率。αs\alpha _sαfusion\alpha _{fusion}是损失权重,设置为1。

除了高斯金字塔架构外,我们还采用拉普拉斯金字塔架构进行比较。如Fig. 3b所示,对粗略比例的估计K映射进行插值,并以较小比例将其添加到K编码器输出中。 从数学上讲,它可以表示为:

公式14Ks=Ks+1×2+ΔKs,s[1,2]K_{s}=K_{s+1} \uparrow \times 2+\Delta K_{s}, \quad s \in[1,2]

因此,它在更精细的尺度上强制使用K编码器来学习残差ΔKs\Delta K_{s}。 其他部分与高斯金字塔之一相同。 该结构表示为FAMED-Net-LP,其中“ LP”代表拉普拉斯金字塔。 值得注意的是,FAMED-Net-SS的接收场为13×13,与基于先验的除雾方法中的局部窗口大小相似,例如DCP 和MRP 中的15×15。 至于FAMED-Net-GP和FAMED-Net-LP,它们的接收范围变大,即52×52,这使网络可以学习更有效的统计规律。

模型复杂度分析

FAMED-Net的详细信息显示在Table 1中。可以看出,FAMED-Net非常轻巧,紧凑,这归功于完全逐点卷积。 例如,FAMED-Net-SS仅包含5,987个可学习的参数,并且具有9.39×1079.39 \times 10^7 FLOPs。 在FAMED-Net-GP中,可学习参数的数量增加了三倍,而FLOP仅增加了约30%。 FAMED-Net由于具有完全卷积结构,因此可以处理任意大小的模糊图像,并且计算量随图像大小线性增加。

image-20200926204634903

为了减少大图像所需的FLOPs,我们提出了固定大小的测试策略。 首先,我们将最长边的模糊图像大小调整为360,然后将其输入到网络中。然后,我们使用双线性插值将来自融合模块的估计K映射调整为原始尺寸。 此外,我们使用快速引导滤波器来精炼插值的K映射。 快速导引滤波器比原始O(N)导引滤波器快dd(该数字是在512×512图像上计算得出的,因为DCPDN需要固定大小的输入)倍,几乎没有可见的劣化,其中d是下采样率。最后,根据公式4恢复场景辐射度。这样,我们可以以几乎固定的计算成本处理任意大小的模糊图像。 我们在Table II中介绍了与最新模型的比较,包括参数,模型大小和运行时。 这些比较清楚地表明,FAMED-Net轻巧且计算效率高。可以在第IV-C.5节中找到更多详细信息。

image-20200926221130121

实验内容

为了评估FAMED-Net的性能,我们将其与基于最新图像先验的方法进行了比较,包括DCP ,FVR ,BCCR ,GRM ,CAP 和NLD ,以及基于深CNN的方法,包括DehazeNet ,MSCNN ,AOD-Net,FPCNet ,GFN 和DCPDN 。 由于其大规模,多样化的数据源和图像内容,我们采用了最近提出的RESIDE [3]作为基准数据集. RESIDE在训练集中包含110,500个合成模糊室内图像(ITS)和313,950个合成模糊室外图像(OTS)。 我们在SOTS测试集上报告了每种方法的PSNR和SSIM,其中包括室内和室外场景(每个场景500个)。 我们还比较了文献中使用的真实朦胧图像上的主观视觉效果。 消融研究在包含400个模糊室内/室外图像的TestSet-S上进行,这是最初用于挑战的数据集。

在RESIDE中,对FAMED-Net的ITS和OTS组合进行了总共400,000次迭代的培训。 从训练图像中随机裁剪的128x128补丁用于训练。Fig. 4显示了训练补丁中深度级别的相应统计信息。 我们根据最大和最小深度值将深度图量化为10个均匀级别。 然后,我们计算每个补丁中唯一深度级别的数量,并计算直方图及其对应的累积分布,如Fig 4所示。
可以看出,几乎65%的补丁覆盖了至少3个深度级别,而40%以上的补丁覆盖了至少4个深度级别。 值得注意的是,由于来自不同场景的训练图像的大小约为550×400,因此每个128×128的色块可以覆盖各种场景结构,如统计数据所示。 因此,每个补丁中有不同程度的雾度,即轻度和浓雾度。 它使FAMEDNet的接收域为52×52,以学习有效的特征表示,同时避免过度拟合平面结构。

image-20200926221634663

在验证集上调整了超参数。 批处理大小设置为48。初始学习率设置为0.00001,在进行200,000次和320,000次迭代后,其学习速度降低了10。 动量和重量衰减分别设置为0.9和0.0001。 除非另有说明,否则使用平均池。 在测试过程中,快速引导滤波器的内核半径设置为48。正则化参数epsilon设置为0.0001。 下采样因子设置为4。FAMED-Net在Caffe 中实现,并在具有3.5 GHz CPU,32G RAM和Nvidia Titan XP GPU的工作站上运行。

消融实验

  1. 基本体系结构的烧蚀:首先,我们对基本FAMED-Net体系结构的组件进行了烧蚀。我们从ITS和OTS总共采样了40,000张图像,以形成消融训练集。 此外,对模型进行了总共100,000次迭代的训练。 经过50,000和80,000次迭代,学习率降低了0.1。所有其他参数如上所述。 Table III中列出了TestSet-S的结果。

    批量归一化的FAMED-Net-FD4的除雾效果远优于FAMED-Net-NoBN。还发现FAMED-Net-FD4的收敛速度比FAMED-Net-NoBN快。 我们还显示了卷积特征通道数量对除雾结果的影响。随着信道的增加,该模型倾向于具有更强的表示能力,并获得更高的PSNR和SSIM得分。 例如,FAMED-Net-S比FAMED-Net-FD4获得0.3 dB的增益和0.024 SSIM得分,与FAMED-Net-NoBN相比获得1.5 dB的增益和0.06 SSIM得分。关于多尺度体系结构,通过附加的下尺度分支,PSNR分数提高了0.2 dB,但SSIM分数仅略有下降。 在这三个方面,FAMED-Net-GP都是最好的体系结构。 最后,我们增加了FAMED-Net-GP中的特征通道,但这仅略微提高了PSNR分数,并降低了SSIM分数。 为了在准确性和复杂性之间进行权衡,我们选择了FAMED-Net-GP作为代表架构。

  2. 训练数据量和训练迭代的消融:我们接下来研究了训练数据量和训练迭代的影响。 具体来说,我们对FAMED-NetGP进行了400,000次迭代训练,并在ITS和OTS中训练了所有图像,即总共424,450张图像。 结果列于Table IV。 可以看出,经过足够的培训,FAMED-Net-GP得到了改善。 此外,当使用所有图像训练FAMED-Net-GP时,PSNR和SSIM也会显着提高,从而产生2.14 dB的增益和0.0425 SSIM分数。 因此,更多的训练数据通过利用其强大的表示能力而使深度神经网络受益。

image-20200926222322206

image-20200926222342433

多尺度架构的变体

  1. 用于学习结构特征的附加3x3卷积:由于具有完全的逐点卷积结构,FAMED-Net-GP在学习结构特征方面的能力有限。 为了查看其他结构特征是否有利于除雾,我们在每个比例的开头在FAMED-Net-GP(表示为FAMED-Net-GP-3x3)中插入了额外的3x3卷积层。 我们测试了包括4和8在内的不同功能通道配置。结果显示在Table V的前三行中。

    与FAMED-Net-GP(请参阅Table IV的第一行和最后一行)相比,FAMED-Net-GP-3x3在相同的训练设置下表现更好。 通过更多的3x3卷积通道,用所有训练图像训练的FAMED-Net-GP-3x3是最好的体系结构,即25.94 dB和0.9180 SSIM得分。与没有3x3卷积层的同类产品相比,其增益为0.26 dB,SSIM得分为0.01。但是,这是以附加的6.69%参数(即1152)和6.66%FLOP(即8.26×1068.26 \times 10^6)为代价的。

  2. 拉普拉斯金字塔体系结构:在第III-C节中,我们还介绍了拉普拉斯金字塔体系结构FAMEDNetLP(请参见Fig. 3b)。 与高斯金字塔体系结构FAMED-Net-GP(请参阅Table V的最后一行)相比,FAMED-Net-LP的PSNR略低,SSIM略高。 通常,其性能可与FAMED-Net-GP媲美。 由于使用残差学习没有明显的好处,因此在以下实验中,将FAMED-NetGP用作我们的默认多尺度体系结构。

  3. 最大池化的有效性:为进行除雾,通常从极端像素值中提取有效的局部特征,这些像素值包括暗通道(局部色块内所有通道的最小值),局部最大对比度和饱和度,以及 使用DehazeNet 中的maxout操作学习到的功能。 受这些研究的启发,我们假设最大池化对于汇总本地统计数据和了解除雾的有效特征可能更为有效。 为了验证这一假设,我们将所有池层中的平均池操作更改为最大池。该结构表示为FAMED-Net-GP-MaxP,并且使用与FAMED-Net-GP相同的设置对其进行了培训。 结果显示在Table V的最后一行中。

    与使用平均池化的同类产品(Table IV中的最后一行)相比,FAMED-Net-GP-MaxP获得了0.83 dB的显着增益和0.0091的SSIM得分。 它也优于FAMED-Net-GP-3x3 0.57 dB,并获得几乎相同的SSIM得分。 因此,我们选择FAMED-Net-GPMaxP作为拟议架构的代表模型,因为它的重量轻(共17,991个参数),并且计算效率高(1.24×1081.24 \times 10^8 FLOPs)。 为简单起见,在以下各节中将其表示为FAMED-Net。

image-20200926223235902

与最新技术的比较

为了评估FAMED-Net的性能,我们将其与几种最先进的方法进行了比较,包括DCP ,FVR ,BCCR ,GRM ,CAP ,NLD ,DehazeNet ,MSCNN ,AOD-Net,FPCNet ,GFN 和DCPDN .

image-20200926223941840

  1. RESOUR SOTS的结果:Tabel VI列出了不同方法的PSNR和SSIM得分。 可以得出几个观察结果。

    • 基于CNN的方法通常优于基于图像先验的方法。 通过以数据驱动的方式学习特征,与基于图像先验的模型相比,基于CNN的除雾模型具有更强的代表性,后者通常限于特定场景。
    • CNN架构很重要。 例如,通过使用轻量级的完全逐点卷积体系结构,FPCNet大大超过了其竞争对手DehazeNet。 它获得了SSIM的第二佳分数,甚至超过了一些复杂的网络,如AOD-Net,GFN和DCPDN。 此外,通过将成像模型集成到网络体系结构中,端到端AOD-Net比无端到端方法更准确地恢复了目标无雾图像。
    • FAMED-Net是表现最好的方法。此外,它显着提高了PSNR和SSIM得分。 例如,FAMED-Net以3.6 dB和0.05的SSIM得分大大超过了第二好的方法。

    在仔细剖析了FAMED-Net的建议架构并将其与最新架构进行比较之后,我们可以得出以下结论。 首先,逐点卷积在构建紧凑轻量的除雾网络中起着关键作用。 级联的逐点卷积层通过逐层聚合基于局部统计的特征,非常有效地解决了不适定的除雾问题。 其次,以端到端的方式对除雾任务进行建模是有益的。 第三,精心设计的多尺度体系结构可以处理复杂场景中的尺度差异,而仅以最小的方式增加计算成本。 最后,通过密集连接重用特征会产生更好,更紧凑的模型。

  2. 主观评价:图5给出了对合成模糊图像的主观比较。MSCNN 在室内图像上的除雾结果具有红色方框所示的残留雾度。 此外,MSCNN倾向于产生过度饱和的结果,并带有红色箭头所示的颜色失真。 在AOD-Net的结果中也可以发现类似的现象。 尽管FPCNet 取得了更好的结果,但仍有一些雾度残留和颜色失真。 此外,由于在蓝色框包围的区域中错误地估计了传输,因此MSCNN和FPCNet产生了嘈杂的结果。 所提出的FAMEDNet成功地以较高的色彩保真度和较少的雾度/噪声残留恢复了清晰的图像。 它展示了从综合训练图像中学到的FAMED-Net的拟合能力。

    主观评价:Fig. 5给出了对合成模糊图像的主观比较。MSCNN 在室内图像上的除雾结果具有红色方框所示的残留雾度。 此外,MSCNN倾向于产生过度饱和的结果,并带有红色箭头所示的颜色失真。 在AOD-Net的结果中也可以发现类似的现象。 尽管FPCNet 取得了更好的结果,但仍有一些雾度残留和颜色失真。 此外,由于在蓝色框包围的区域中错误地估计了传输,因此MSCNN和FPCNet产生了嘈杂的结果。 所提出的FAMEDNet成功地以较高的色彩保真度和较少的雾度/噪声残留恢复了清晰的图像。 它展示了从综合训练图像中学到的FAMED-Net的拟合能力。

    接下来,我们在Fig. 6中的真实朦胧图像上显示结果,以比较不同方法的泛化能力。 还显示了红色矩形中的特写视图。可以看出,DCP,MSCNN和AOD-Net倾向于产生过饱和的结果,尤其是在天空区域。MSCNN还显示颜色伪影,使去雾后的结果不切实际(请参见前两幅图像)。 AOD-Net的除雾图像比其他图像更暗。 DehazeNet取得了更好的结果,但仍然产生了一些颜色伪影(请参阅第一个图像的中间部分和第二个图像中的蓝色伪影)。 FPCNet优于DehazeNet,但保留了一些阴霾。

    使用一些增强的结果作为输入并采用融合策略,GFN产生了视觉上更好的结果。 然而,第一图像的中间部分和过饱和的第二图像的颜色失真在视觉上是令人不愉快的。 DCPDN产生更好的除雾效果和更明亮的效果。 然而,由于过度曝光的伪像,一些细节丢失了。 通常,FAMED-Net可以产生与最新方法更好或至少可比的结果,即清晰的细节,更少的色彩伪影和高保真的天空区域。在最后一行中,我们还比较了使用不同方法进行防光晕处理的图像增强效果。 FAMED-Net还产生了令人愉悦的视觉效果。 补充中可以找到更多结果。

  3. 交叉集泛化:我们还比较了FAMED-Net和最近提出的两种方法GFN和DCPDN之间的交叉集泛化。 我们在[23]中使用RESIDE SOTS和TestA作为两个测试集。 我们使用了所有三种方法的预训练模型,并且没有对其进行微调。 结果列于Table VII。 可以看出,FAMED-Net具有比GFN和DCPDN更好的概括性,我们将其归因于使用大规模训练集和所提出体系结构的有效性。

  4. 对学习到的潜在统计规律的分析:基于图像先验的方法(包括DCP ,CAP 和NLD )假定对无雾图像进行了先验统计,用于强制执行统计规律以恢复目标除雾结果。 。 基于学习的方法还可以学习潜在的统计规律。 例如,对传输进行回归的DehazeNet和FPCNet应该为无雾影像生成全1的传输图。 换句话说,他们应该学习类似于暗通道的统计先验,即1t01-t≈0。至于AOD-Net和FAMEDNet,他们隐式地回归了潜在变量K。 对于无雾图像,通常假定大气光为白色,即[1,1,1]。 因此,可以从公式3推导对应的K为K=1tK = \frac{1}{t}。 同样,它应该是全1的映射,即11K^0\frac{}{} 1-\frac{1}{\widehat{K}} \approx 0,其中K^\widehat {K}是三个通道的平均值。

    为了比较不同方法的学习统计规律,我们收集了100张无雾图像(Fig. 7第一栏中显示了两个示例)。 调整这些图像的大小,使长边为480像素,短边为100到480像素。 然后,我们计算了每个大小为7×7的局部色块内的暗通道t和K。接下来,我们将像素值的范围划分为20个统一的bin中心,并计算所有图像上属于每个bin的像素的相应数量。 最后,我们在Fig. 8中绘制了DCP,FPCNet,AOD-Net和FAMED-Net的暗通道,1t1-t11K^\frac{}{} 1-\frac{1}{\widehat{K}}的直方图。FAMED-Net比DCP,FPCNet更有效地统计了规律性 和AOD-Net。 此外,AOD-Net的统计数据还远非零。 换句话说,经过训练的网络隐式地假定在无雾度图像中存在需要去除的雾度。 因此,如第三列所示,它导致过度模糊的工件。 这与Fig. 6中的视觉结果一致。

  5. 运行时分析:我们进一步比较了RESIDE SOTS中室内图像(620×460)上不同方法的运行时。 结果列在Table II的III-D节中。 使用我们的工作站和作者发布的代码来报告其他人。我们报告了网络前向计算的运行时间以及整个算法,包括针对FPCNet和FAMED-Net的快速引导滤波器细化,如Table II中的单独行所示。 斜线之前/之后的数字表示CPU / GPU模式下的运行时间,即C / G。 FAMED-Net运行速度非常快,无论是否具有快速引导的滤镜优化功能,其速度都可以达到85 fps和35 fps。 此外,我们还列出了每个CNN模型的参数数量和模型大小。 与最近提出的GFN,cGAN和DCPDN相比,FAMED-Net更加紧凑和轻便。

image-20200926231026124


image-20200926231443305

image-20200926231539040

image-20200926231614327

image-20200926231723623

image-20200926231743672

image-20200926231815786

局限性与讨论

如II-B节所述,并在IV-C.4节中进行了演示,与许多基于先验和基于学习的方法一样,建议的FAMED-Net隐含地学习了用于除雾的本地统计规律。 尽管FAMED-Net通过利用更有效的体系结构胜过这些方法,但是它仍然存在一些局限性。 由FAMED-Net估计的透射图的一些示例显示在Fig. 9的底行中。如蓝色多边形所示,天空区域中的透射不正确,从而导致去雾伪影如Fig. 6所示。可以通过将高级语义合并到除雾网络中来解决。 但是,这涉及低级增强和高级理解降级图像之间的“鸡和蛋”困境。 我们认为可以通过在一个统一的框架中对两个相关问题进行联合建模来解决该问题,我们将在以后的工作中讨论这些问题。

此外,如补充中的弱光增强实验所证明的,以及中的颜色恒定性结果,可以使用逐点卷积进行照明,色偏等的统计建模。我们还将利用FAMED-Net在不均匀的大气光(例如夜间雾霾环境中的人工环境光)存在下去除雾霾的潜力。通过研究基于区域的技术,例如雾霾密度感知分割技术,扩展FAMED-Net去除异质雾霾也是有希望的。

image-20200926232507112

结论

在本文中,我们介绍了一种称为FAMED-Net的新颖,快速,准确的多尺度端到端除雾网络,以解决具有挑战性的单图像除雾问题。FAMED-Net包括三个不同比例的编码器和一个融合模块,该模块能够直接有效地学习无雾图像。 每个编码器通过密集连接的机制,由级联的逐点卷积层和池化层组成。 通过充分利用逐点结构,FAMED-Net轻巧且计算效率高。在公共基准数据集和真实世界的模糊图像上进行的大量实验证明,FAMED-Net优于其他性能最高的模型:它是用于单图像去雾的快速,轻量级且准确的深度架构。