点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
来源丨 我爱计算机视觉
本文分享 AAAI 2022 论文『Low-Light Image Enhancement with Normalizing Flow』,由南洋理工大学和香港城市大学合作完成,该文针对弱光图像增强问题提出了一种新颖的流正则化模型LLFlow,并在多个数据集上达到SOTA性能。
详细信息如下:
-
论文链接:https://arxiv.org/abs/2109.05923
-
项目链接:https://wyf0912.github.io/LLFlow/
-
代码链接:https://github.com/wyf0912/LLFlow
01
动机
弱光图像增强是计算机视觉领域中的一项底层视觉任务,近年来也获得了广泛的关注,其目的是通过图像处理手段调整弱光或暗光图像的像素分布,使其拥有正常的光照视觉效果。
目前基于深度学习的方法通过数据驱动的方式从大量数据中学习到弱光图像和正常曝光图像之间的逐像素映射关系,已经可以获得不错的增强效果,下图展示了本文方法与目前其他SOTA方法的增强效果对比,图(a)为输入的弱光图像,图(i)和图(j)分别为本文的效果和正常曝光的图像。
但是这类方法存在两个严重的问题:
-
由于同一张弱光图像可能对应多张不同条件的正常曝光图像,只通过L1和L2这种像素级的损失函数来优化网络,可能会导致网络多次回归到图像均值上,从而影响了网络的泛化能力。
-
现有的L1或L2损失函数可能无法描述参考图像与增强后图像的真实视觉距离,难以满足人类的感官需要。
基于这两个问题,本文引入正则化流技术进行改进。相关研究表明,正则化流约束相比于经典的像素损失更能符合复杂的条件分布,因此其可以更好的描述各种背景下图像结构细节,同时更高质量的计算处理图像与正常曝光图像的视觉距离,这有助于调整图像亮度的同时也抑制图像伪影。
基于正则化流技术,本文提出了LLFlow,其通过对正常曝光图像上的像素分布进行建模,可以准确地提取图像的局部像素相关性和全局图像特性。进而可以提高整体图像的增强质量。
02
本文方法
下图为本文所提方法的整体框架,由一个条件编码器(Conditional encoder)和可逆网络(Invertible network)构成。其中条件编码器用来提取光照不变的色彩图(illumination-invariant color map),可逆网络用来学习弱光图像与正常曝光图像之间的条件映射关系,下面将详细介绍网络的具体细节。
2.1 前提知识
在介绍本文方法之前,我们有必要先了解一下什么是正则化流[1]技术以及图像弱光图像增强的基础理论依据。正则化流是一种通过一系列可逆和可微映射将简单概率分布(例如标准正态分布)转换为更复杂的分布的方法,通过该方法估计的样本概率密度函数值可以通过将其转换回原来的简单分布来精确计算,其具有拟合复杂分布的能力,同时具有一定的可逆性。
图像弱光增强领域基本遵循图像Retinex理论,该理论是Edwin等人[2]在1971年提出。Retinex理论假设,物体的颜色取决于对红、绿、蓝三种波长的光的反射率,而不是光照强度的绝对值。现代Retinex理论假设被观测图像可以分解为两个分量:反射分量和光照分量,假设S代表观测图像,其可以如下分解为:
R代表反射分量,I代表光照分量。其中反射分量描述了被观测图像的固有属性,其不受图像光照条件的影响,上面提到本文方法生成的光照不变的色彩图(illumination-invariant color map)就可以看作是这里的反射分量。光照分量反映了图像整体的光照分布。
2.2 条件编码器生成光照不变色彩图
如上面的框架图所示,条件编码器由一系列的Residual-in-Residual Dense Blocks(RRDB)[3]堆叠构成,其共分为三步处理弱光图像并提取特征:
-
直方图均衡化处理图像
直方图均衡化可以初步提升弱光图像的全局对比度,处理后的图像可以看作是一种图像不变性较强的图像,将其作为增强网络输入的一部分,可以使网络更好的处理图像中过强或过暗的区域。
-
色彩图生成
本文遵循Retinex理论,通过计算每个像素点与该位置所有通道均值的比值得到当前弱光图像x的反射分量,即光照不变色彩图,计算公式如下:
下图展示了图(a)输入弱光图像、(图b)编码器g增强后图像和图(c)参考图像的色彩图对比。
可以看出,图(b)和图(c)基本保持了原有参考图像的细节信息,而图(a)由于弱光条件影响产生了一系列的密集噪声。并且经过编码器g增强后,图(b)可以生成高质量的色彩图,并在一定程度上抑制了噪声。
-
噪声图生成
除了上述两个步骤生成的直方均衡化图像和色彩图之外,还需要估计噪声图作为注意力图一起输入编码器,其中噪声图通过计算图像在x和y方向上的梯度得到。随后将上述三个步骤得到的三幅图像一起送入编码器。
2.3 可逆网络
与编码器学习一对一的映射不同,由于现实场景中光照条件复杂多变,所以可逆网络的目标是学习图像光照的一对多关系。可逆网络使用正则化流技术学习以弱光图像/光照不变颜色图为条件到正常光照图像之间的条件分布。
归一化约束作用在和
之间,其中
是条件编码器增强后的图像色彩图,
是参考图像的色彩图。为了使模型更好的表征正常曝光图像的属性,本文使用最大似然估计来估计正则化流模型
的参数,并使用负对数似然函数(NLL)进行优化,损失函数如下:
整体的增强流程如下:首先将弱光图像通过编码器提取色彩图,然后将编码器的中间特征图作为可逆网络的输入条件进行调整。在网络训练阶段,图像特征z可以从分布
中随机选择一个batch来得到不同的输出,并且计算这些生成图像的均值来获得更好的增强效果。在模型推理阶段,作者直接使用
作为输入z来提高推理速度。
03
实验效果
本文在两个具有代表性的图像增强数据集上进行了实验,分别LOL和VE-LOL。其中LOL包括 485张训练图像和15张测试图像。定量实验使用了三个常见的图像质量评价指标:PSNR、SSIM和LPIPS。下表对比了不同方法的增强数值效果,可以看出,本文方法均超越了目前的SOTA方法。
其中较高的PSNR值表明本文方法能够抑制伪影并更好地恢复颜色信息。SSIM值表明本文的方法更好地保留了具有高频细节的结构信息。对于LPIPS,该指标的设计理念是为了符合人类的视觉感知度量,本文方法的LPIPS值也取得了最好的结果,这表明了本文方法可以更好满足人眼的感官效果。
除此之外,上图展示了本文方法与其他方法的视觉效果对比,可以看到本文方法通过更好地抑制了人工伪影并且极大程度的保留了图像的颜色信息,实现了更高视觉质量的增强效果。
04
总结
在本文中,作者提出了一种新颖的流正则化模型来解决弱光图像增强问题。与目前基于像素级重建损失的方法不同,本文提出的以弱光图像/特征作为条件的负对数似然函数(NLL)损失函数可以更好的表征图像的结构上下文,同时其也拥有更优秀的视觉质量度量能力。凭借这些优点,本文方法可以更好地捕捉正常曝光图像的复杂条件分布,并且可以实现更好的图像弱光增强质量。
参考文献
[1] Kobyzev, I.; Prince, S.; and Brubaker, M. 2020. Normalizing flows: An introduction and review of current methods. IEEE Transactions on Pattern Analysis and Machine Intelligence.
[2] E. H. Land and J. J. McCann, “Lightness and retinex theory,” Josa, vol. 61, no. 1, pp. 1–11, 1971.
[3] Wang, X.; Yu, K.; Wu, S.; Gu, J.; Liu, Y.; Dong, C.; Qiao, Y.; and Change Loy, C. 2018. Esrgan: Enhanced super-resolution generative adversarial networks. In Proceedings of the European Conference on Computer Vision (ECCV) Workshops.
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程推荐:
1.面向自动驾驶领域的多传感器数据融合技术
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码) 3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进 4.国内首个面向工业级实战的点云处理课程 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解 6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
9.从零搭建一套结构光3D重建系统[理论+源码+实践]
10.单目深度估计方法:算法梳理与代码实现
11.自动驾驶中的深度学习模型部署实战
12.相机模型与标定(单目+双目+鱼眼)
13.重磅!四旋翼飞行器:算法与实战
14.ROS2从入门到精通:理论与实战
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~