【LLIE技术专题】基于光照感知伽马校正与完整图像建模网络的低光图像增强(IAGC)方案
Low-Light Image Enhancement with Illumination-Aware Gamma Correction and Complete Image Modelling Network(2023 ICCV)
- 专题介绍
- 一、研究背景
- 二、方法
- (一)三阶段增强流程
- (二)核心模块
- (三)损失函数
- 三、实验结果
- (一)与现有方法对比
- (二)消融实验
- 四、总结
本文聚焦低光图像增强(LLIE)问题,提出了一种融合光照感知伽马校正与完整图像建模的新型网络结构 ——IAGC(Illumination-Aware Gamma Correction)网络,旨在解决现有方法对低光图像有效光照恢复表征提取不敏感、难以处理大面积暗区域等局限,最终通过大量实验验证了方法的优越性。参考资料如下:
[1]. 论文地址
论文整体结构思维导图如下:
专题介绍
在低光照环境下,传统成像设备往往因画面昏暗、细节丢失而受限。LLIE(低照度暗光增强)技术应运而生,它通过提升图像亮度、对比度,减少噪点并恢复色彩细节,让暗夜变得清晰可见。
LLIE技术从传统方法如直方图均衡化、Retinex模型等起步,近年来借助深度学习,尤其是卷积神经网络(CNN),GAN模型,扩散模型实现了质的飞跃。这些算法能自动学习图像特征,精准处理低光照图像,效果显著优于传统技术。
本专题将聚焦LLIE技术的核心原理、应用案例及最新进展,让我们一起见证LLIE如何点亮暗夜,开启视觉新视界!欢迎一起探讨交流!
系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet
【9】EnligtenGAN
【10】PTG
【11】CSNorm
【12】SG-LLIE结构提取方案
【13】SAIGFormer
【14】BEM
【15】SKF
【16】SIED
【17】LYT-Net
【18】GT-Mean Loss
【19】SCI
一、研究背景
低光环境下拍摄的图像普遍存在大面积暗区域、对比度低、有用信息被淹没的问题,不仅影响人眼对图像内容的识别,还会严重降低目标检测、图像分割等计算机视觉算法的性能。
现有低光图像增强(LLIE)方法存在明显局限:
- 传统方法:基于Retinex理论的方法依赖手工设计先验,适应性差,面对不同场景易出现颜色偏差;直方图均衡化等方法难以平衡全局与局部光照,增强效果生硬。
- CNN-based方法:虽通过端到端学习提升了增强能力,但受“局部性偏见”和“空间不变性”限制——局部性使其无法处理长距离暗区域,空间不变性则对明暗区域同等对待,导致部分图像光照恢复不充分、颜色不准确。
- Transformer-based方法:虽能建模长距离像素依赖,但多通过下采样或patch级注意力计算,易丢失像素级细节信息,暗区域恢复效果仍不理想。
为解决上述问题,该研究提出融合“光照感知伽马校正”与“完整图像建模”的新型网络(IAGC),旨在提升低光图像有效光照恢复表征的提取能力,实现更优的增强效果。
二、方法
研究提出的IAGC(Illumination-Aware Gamma Correction)网络,采用“从粗到精”三阶段增强策略,结合光照感知伽马校正模块与完整图像建模Transformer模块,具体设计如下:
(一)三阶段增强流程
-
第一阶段(粗增强):通过GGCM提升图像整体亮度,使暗区域有用信息初步显现,得到 R s 1 R_{s1} Rs1;
-
第二阶段(细节增强与降噪):融合原始图像与 R s 1 R_{s1} Rs1特征,经COMO-ViT建模全像素依赖,增强细节并隐式降噪,通过解码器得到 R s 2 R_{s2} Rs2;
-
第三阶段(精细校正):通过LGCM微调光照分布,得到最终增强结果 R s 3 R_{s3} Rs3。
(二)核心模块
-
光照感知伽马校正模块(GGCM与LGCM)
- 全局伽马校正模块(GGCM):输入低光图像,经“卷积层(提取特征)→平均池化层(获取全局信息)→全连接层(融合通道)→Sigmoid函数(输出因子)”预测全局校正因子 Γ g \Gamma_g Γg,对图像进行粗增强,得到 R s 1 = I Γ g R_{s1}=I^{\Gamma_g} Rs1=IΓg。为降低指数运算的高计算复杂度,采用泰勒级数近似,公式优化为 R s 1 = 1 + l n I ⊙ Γ g + l n 2 I 2 ! ⊙ Γ g 2 R_{s1}=\mathbb{1}+ln I \odot \Gamma_{g}+\frac{ln ^{2} I}{2 !} \odot \Gamma_{g}^{2} Rs1=1+lnI⊙Γg+2!ln2I⊙Γg2( 1 \mathbb{1} 1为全1矩阵)。
- 局部伽马校正模块(LGCM):以第二阶段结果 R s 2 R_{s2} Rs2为输入,通过卷积层提取局部光照差异特征,预测像素级局部校正因子 Γ l \Gamma_l Γl,精细调整局部光照,减少颜色偏差,最终结果为 R s 3 = R s 2 Γ l R_{s3}=R_{s2}^{\Gamma_l} Rs3=Rs2Γl,同样采用泰勒级数近似优化计算。
-
完整图像建模Transformer(COMO-ViT)
针对低光图像大面积暗区域难以恢复的问题,设计“局部-全局”分层自注意力机制,完整建模所有像素依赖:- 局部注意力分支:将输入特征分割为非重叠窗口,每个窗口内像素经线性投影生成嵌入序列,通过“多头自注意力(MSA,建模窗口内像素依赖)+层归一化(LN,稳定训练)+多层感知机(MLP,特征变换)”提取局部细节,同时用1D可学习位置嵌入保留空间信息。
- CNN辅助分支:并行使用含SE通道注意力块的CNN模块,通过重叠滑动核补充局部结构信息。
- 全局注意力融合:结合两分支特征(全局注意力分支和局部注意力分支),生成窗口嵌入序列,通过全局Transformer模块探索窗口间依赖,实现“局部细节→全局关联”的完整建模,有效利用亮区域信息恢复暗区域。
-
细节补充
IAGC网络第一阶段的核心是通过全局伽马校正模块(GGCM) 完成低光图像的“粗增强”,我们注意到一阶段后部分还有一个网络结构,其作用是在GGCM生成初步增强结果( R s 1 R_{s1} Rs1)的基础上,进一步做特征融合与注意力加权,为第二阶段的精细增强和细节恢复铺垫关键信息,具体流程与设计逻辑如下:
1. 第一步:特征投影(将图像映射到特征空间)
为了让原始图像( I I I)和粗增强结果( R s 1 R_{s1} Rs1)的信息能被网络有效处理,首先需要将二者从“像素空间”转换到“特征空间”——通过卷积层(Conv)提取深层特征,公式如下:
F I = C o n v ( I ) , F R = C o n v ( R s 1 ) F_{I} = Conv(I), \quad F_{R} = Conv(R_{s1}) FI=Conv(I),FR=Conv(Rs1)
2. 第二步:空间注意力加权(突出有效信息,抑制干扰)
低光图像中,亮区域的像素通常包含更丰富的语义信息(如物体纹理、场景细节),而暗区域多为噪声或无效信息。为了让网络更关注亮区域特征、减少暗区域的负面影响,设计了空间注意力模块(SAM),对 F I F_{I} FI和 F R F_{R} FR分别做加权处理,公式如下:
A I = ϕ ( C o n v ( F I ) ) , F ^ I = A I ⊙ F I A R = ϕ ( C o n v ( F R ) ) , F ^ R = A R ⊙ F R \begin{aligned} A_{I} &= \phi\left(Conv\left(F_{I}\right)\right), \quad \hat{F}_{I} = A_{I} \odot F_{I} \\ A_{R} &= \phi\left(Conv\left(F_{R}\right)\right), \quad \hat{F}_{R} = A_{R} \odot F_{R} \end{aligned} AIAR=ϕ(Conv(FI)),F^I=AI⊙FI=ϕ(Conv(FR)),F^R=AR⊙FR
注意力图生成( A I A_{I} AI、 A R A_{R} AR):对 F I F_{I} FI、 F R F_{R} FR分别用1×1卷积层压缩通道数,再通过Sigmoid函数( ϕ \phi ϕ)将输出映射到[0,1]区间,得到与特征图尺寸完全一致的“空间注意力图”;
- 注意力图中,值越接近1的位置,表示该区域是亮区域、含有效信息,网络应重点关注;
- 值越接近0的位置,表示该区域是暗区域、含干扰信息,网络应抑制其影响;
- 特征加权( F ^ I \hat{F}_{I} F^I、 F ^ R \hat{F}_{R} F^R):通过“像素级乘法( ⊙ \odot ⊙)”,用注意力图对原始特征图做加权——亮区域特征被放大,暗区域特征被削弱。
3. 第三步:特征融合(整合双源信息,生成最终输入特征)
经过注意力加权的 F ^ I \hat{F}_{I} F^I和 F ^ R \hat{F}_{R} F^R各有优势: F ^ I \hat{F}_{I} F^I保留了原始图像的空间结构, F ^ R \hat{F}_{R} F^R包含了恢复的亮度细节。为了将二者的优势结合,设计了“加法融合+卷积压缩”的融合策略,公式如下:
F f = C o n v ( F ^ I + F ^ R ) F_{f} = Conv\left(\hat{F}_{I} + \hat{F}_{R}\right) Ff=Conv(F^I+F^R)
最终生成的(F_{f})(融合特征图),就是第一阶段后部分的输出,将直接作为第二阶段“编码器+COMO-ViT”的输入特征。
(三)损失函数
采用“Charbonnier损失(空间域精度约束)+梯度损失(梯度域细节约束)”,公式为:
L = ∑ i = 1 3 ( ∥ R s i − G ∥ 2 + ϵ 2 + ∥ ∇ R s i − ∇ G ∥ 2 ) \mathcal{L}=\sum_{i=1}^{3}\left(\sqrt{\left\| R_{s i}-G\right\| ^{2}+\epsilon^{2}}+\left\| \nabla R_{s i}-\nabla G\right\| ^{2}\right) L=i=1∑3(∥Rsi−G∥2+ϵ2+∥∇Rsi−∇G∥2)
其中, R s i R_{si} Rsi为第 i i i阶段结果, G G G为真值, ϵ = 1 0 − 3 \epsilon=10^{-3} ϵ=10−3, ∇ \nabla ∇表示水平与垂直梯度组合,约束三阶段训练平衡精度与细节。
三、实验结果
实验基于LOL系列数据集(v1、v2-real、v2-synthetic)验证,采用PyTorch框架在NVIDIA v100NV32 GPU上训练,关键超参数包括:训练轮次300、优化器Adam、批大小8、初始学习率4e-4(余弦衰减)。
(一)与现有方法对比
- 定量对比(PSNR/SSIM):在三大数据集上,IAGC均优于SNR、URetinex-Net、MIRNet等主流方法:
- LOL-v1:PSNR 24.53、SSIM 0.842,超过第二名SNR(PSNR 24.49、SSIM 0.840);
- LOL-v2-real:PSNR 22.20、SSIM 0.863,显著领先第二名SNR(PSNR 21.36、SSIM 0.842);
- LOL-v2-synthetic:PSNR 25.58、SSIM 0.940,远超第二名DRBN(PSNR 23.22、SSIM 0.927)。
- 定性对比:IAGC在恢复光照、保留细节、抑制噪声上表现更优。例如,在LOL-v2-synthetic测试图像中,LIME存在明显噪声,SCI光照恢复不足,URetinex-Net细节丢失,而IAGC能均衡增强光照,且无颜色偏差。
(二)消融实验
-
伽马校正模块有效性:消融GGCM的模型( G 1 G_1 G1)PSNR下降幅度大于消融LGCM的模型( G 2 G_2 G2),且颜色偏差更明显,证明GGCM在全局光照增强中作用更关键,LGCM主要辅助减少局部偏差。
-
COMO-ViT注意力有效性:消融局部注意力的模型( A 1 A_1 A1)性能最差,完整“局部+全局”注意力模型( A 4 A_4 A4)性能最优,且优于旁路结构( A 3 A_3 A3),说明“局部-全局”分层注意力能更有效建模像素依赖。
-
窗口大小影响:窗口大小为16时,模型参数(0.326M)比4(0.735M)、32(1.016M)更高效,且性能差异小,故设为默认值。
四、总结
- 核心贡献:提出IAGC网络,首次将可学习伽马校正(GGCM+LGCM)与完整图像建模Transformer(COMO-ViT)结合,解决了现有方法对低光图像有效光照恢复表征提取不敏感的问题;通过泰勒级数近似降低计算复杂度,平衡性能与效率。
- 方法优势:“从粗到精”的增强策略能逐步优化光照,COMO-ViT的“局部-全局”注意力可完整建模像素依赖,有效利用亮区域信息恢复暗区域,最终在定量指标与定性效果上均超越现有主流方法。
感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。