当前位置：首页 > news >正文

【LLIE技术专题】基于光照感知伽马校正与完整图像建模网络的低光图像增强（IAGC）方案

news 2025/10/16 9:32:13

在这里插入图片描述

Low-Light Image Enhancement with Illumination-Aware Gamma Correction and Complete Image Modelling Network（2023 ICCV）

专题介绍
- 一、研究背景
- 二、方法
- - （一）三阶段增强流程
  - （二）核心模块
  - （三）损失函数
- 三、实验结果
- - （一）与现有方法对比
  - （二）消融实验
- 四、总结

本文聚焦低光图像增强（LLIE）问题，提出了一种融合光照感知伽马校正与完整图像建模的新型网络结构 ——IAGC（Illumination-Aware Gamma Correction）网络，旨在解决现有方法对低光图像有效光照恢复表征提取不敏感、难以处理大面积暗区域等局限，最终通过大量实验验证了方法的优越性。参考资料如下：
[1]. 论文地址

论文整体结构思维导图如下：
在这里插入图片描述

专题介绍

在低光照环境下，传统成像设备往往因画面昏暗、细节丢失而受限。LLIE（低照度暗光增强）技术应运而生，它通过提升图像亮度、对比度，减少噪点并恢复色彩细节，让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步，近年来借助深度学习，尤其是卷积神经网络（CNN），GAN模型，扩散模型实现了质的飞跃。这些算法能自动学习图像特征，精准处理低光照图像，效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展，让我们一起见证LLIE如何点亮暗夜，开启视觉新视界！欢迎一起探讨交流！

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet
【9】EnligtenGAN
【10】PTG
【11】CSNorm
【12】SG-LLIE结构提取方案
【13】SAIGFormer
【14】BEM
【15】SKF
【16】SIED
【17】LYT-Net
【18】GT-Mean Loss
【19】SCI

一、研究背景

低光环境下拍摄的图像普遍存在大面积暗区域、对比度低、有用信息被淹没的问题，不仅影响人眼对图像内容的识别，还会严重降低目标检测、图像分割等计算机视觉算法的性能。

现有低光图像增强（LLIE）方法存在明显局限：

传统方法：基于Retinex理论的方法依赖手工设计先验，适应性差，面对不同场景易出现颜色偏差；直方图均衡化等方法难以平衡全局与局部光照，增强效果生硬。
CNN-based方法：虽通过端到端学习提升了增强能力，但受“局部性偏见”和“空间不变性”限制——局部性使其无法处理长距离暗区域，空间不变性则对明暗区域同等对待，导致部分图像光照恢复不充分、颜色不准确。
Transformer-based方法：虽能建模长距离像素依赖，但多通过下采样或patch级注意力计算，易丢失像素级细节信息，暗区域恢复效果仍不理想。

为解决上述问题，该研究提出融合“光照感知伽马校正”与“完整图像建模”的新型网络（IAGC），旨在提升低光图像有效光照恢复表征的提取能力，实现更优的增强效果。

二、方法

研究提出的IAGC（Illumination-Aware Gamma Correction）网络，采用“从粗到精”三阶段增强策略，结合光照感知伽马校正模块与完整图像建模Transformer模块，具体设计如下：
在这里插入图片描述

（一）三阶段增强流程

在这里插入图片描述

第一阶段（粗增强）：通过GGCM提升图像整体亮度，使暗区域有用信息初步显现，得到 $R_{s1}$ ；
第二阶段（细节增强与降噪）：融合原始图像与 $R_{s1}$ 特征，经COMO-ViT建模全像素依赖，增强细节并隐式降噪，通过解码器得到 $R_{s2}$ ；
第三阶段（精细校正）：通过LGCM微调光照分布，得到最终增强结果 $R_{s3}$ 。

（二）核心模块

光照感知伽马校正模块（GGCM与LGCM）
- 全局伽马校正模块（GGCM）：输入低光图像，经“卷积层（提取特征）→平均池化层（获取全局信息）→全连接层（融合通道）→Sigmoid函数（输出因子）”预测全局校正因子 $\Gamma_g$ ，对图像进行粗增强，得到 $R_{s1}=I^{\Gamma_g}$ 。为降低指数运算的高计算复杂度，采用泰勒级数近似，公式优化为 $R_{s1}=\mathbb{1}+ln I \odot \Gamma_{g}+\frac{ln ^{2} I}{2 !} \odot \Gamma_{g}^{2}$ （ $\mathbb{1}$ 为全1矩阵）。
- 局部伽马校正模块（LGCM）：以第二阶段结果 $R_{s2}$ 为输入，通过卷积层提取局部光照差异特征，预测像素级局部校正因子 $\Gamma_l$ ，精细调整局部光照，减少颜色偏差，最终结果为 $R_{s3}=R_{s2}^{\Gamma_l}$ ，同样采用泰勒级数近似优化计算。
完整图像建模Transformer（COMO-ViT）
针对低光图像大面积暗区域难以恢复的问题，设计“局部-全局”分层自注意力机制，完整建模所有像素依赖：
- 局部注意力分支：将输入特征分割为非重叠窗口，每个窗口内像素经线性投影生成嵌入序列，通过“多头自注意力（MSA，建模窗口内像素依赖）+层归一化（LN，稳定训练）+多层感知机（MLP，特征变换）”提取局部细节，同时用1D可学习位置嵌入保留空间信息。
- CNN辅助分支：并行使用含SE通道注意力块的CNN模块，通过重叠滑动核补充局部结构信息。
- 全局注意力融合：结合两分支特征(全局注意力分支和局部注意力分支)，生成窗口嵌入序列，通过全局Transformer模块探索窗口间依赖，实现“局部细节→全局关联”的完整建模，有效利用亮区域信息恢复暗区域。
细节补充
IAGC网络第一阶段的核心是通过全局伽马校正模块（GGCM） 完成低光图像的“粗增强”，我们注意到一阶段后部分还有一个网络结构，其作用是在GGCM生成初步增强结果（ $R_{s1}$ ）的基础上，进一步做特征融合与注意力加权，为第二阶段的精细增强和细节恢复铺垫关键信息，具体流程与设计逻辑如下：
1. 第一步：特征投影（将图像映射到特征空间）
为了让原始图像（ $I$ ）和粗增强结果（ $R_{s1}$ ）的信息能被网络有效处理，首先需要将二者从“像素空间”转换到“特征空间”——通过卷积层（Conv）提取深层特征，公式如下：
$F_{I} = Conv(I), \quad F_{R} = Conv(R_{s1})$
2. 第二步：空间注意力加权（突出有效信息，抑制干扰）
低光图像中，亮区域的像素通常包含更丰富的语义信息（如物体纹理、场景细节），而暗区域多为噪声或无效信息。为了让网络更关注亮区域特征、减少暗区域的负面影响，设计了空间注意力模块（SAM），对 $F_{I}$ 和 $F_{R}$ 分别做加权处理，公式如下：
$\begin{aligned} A_{I} &= \phi\left(Conv\left(F_{I}\right)\right), \quad \hat{F}_{I} = A_{I} \odot F_{I} \\ A_{R} &= \phi\left(Conv\left(F_{R}\right)\right), \quad \hat{F}_{R} = A_{R} \odot F_{R} \end{aligned}$
注意力图生成（ $A_{I}$ 、 $A_{R}$ ）：对 $F_{I}$ 、 $F_{R}$ 分别用1×1卷积层压缩通道数，再通过Sigmoid函数（ $\phi$ ）将输出映射到[0,1]区间，得到与特征图尺寸完全一致的“空间注意力图”；

注意力图中，值越接近1的位置，表示该区域是亮区域、含有效信息，网络应重点关注；
值越接近0的位置，表示该区域是暗区域、含干扰信息，网络应抑制其影响；
特征加权（ $\hat{F}_{I}$ 、 $\hat{F}_{R}$ ）：通过“像素级乘法（ $\odot$ ）”，用注意力图对原始特征图做加权——亮区域特征被放大，暗区域特征被削弱。
3. 第三步：特征融合（整合双源信息，生成最终输入特征）
经过注意力加权的 $\hat{F}_{I}$ 和 $\hat{F}_{R}$ 各有优势： $\hat{F}_{I}$ 保留了原始图像的空间结构， $\hat{F}_{R}$ 包含了恢复的亮度细节。为了将二者的优势结合，设计了“加法融合+卷积压缩”的融合策略，公式如下：
$F_{f} = Conv\left(\hat{F}_{I} + \hat{F}_{R}\right)$
最终生成的(F_{f})（融合特征图），就是第一阶段后部分的输出，将直接作为第二阶段“编码器+COMO-ViT”的输入特征。

（三）损失函数

采用“Charbonnier损失（空间域精度约束）+梯度损失（梯度域细节约束）”，公式为：
$\mathcal{L}=\sum_{i=1}^{3}\left(\sqrt{\left\| R_{s i}-G\right\| ^{2}+\epsilon^{2}}+\left\| \nabla R_{s i}-\nabla G\right\| ^{2}\right)$
其中， $R_{si}$ 为第 $i$ 阶段结果， $G$ 为真值， $\epsilon=10^{-3}$ ， $\nabla$ 表示水平与垂直梯度组合，约束三阶段训练平衡精度与细节。

三、实验结果

实验基于LOL系列数据集（v1、v2-real、v2-synthetic）验证，采用PyTorch框架在NVIDIA v100NV32 GPU上训练，关键超参数包括：训练轮次300、优化器Adam、批大小8、初始学习率4e-4（余弦衰减）。

（一）与现有方法对比

在这里插入图片描述

定量对比（PSNR/SSIM）：在三大数据集上，IAGC均优于SNR、URetinex-Net、MIRNet等主流方法：
- LOL-v1：PSNR 24.53、SSIM 0.842，超过第二名SNR（PSNR 24.49、SSIM 0.840）；
- LOL-v2-real：PSNR 22.20、SSIM 0.863，显著领先第二名SNR（PSNR 21.36、SSIM 0.842）；
- LOL-v2-synthetic：PSNR 25.58、SSIM 0.940，远超第二名DRBN（PSNR 23.22、SSIM 0.927）。

在这里插入图片描述

定性对比：IAGC在恢复光照、保留细节、抑制噪声上表现更优。例如，在LOL-v2-synthetic测试图像中，LIME存在明显噪声，SCI光照恢复不足，URetinex-Net细节丢失，而IAGC能均衡增强光照，且无颜色偏差。

（二）消融实验

伽马校正模块有效性：消融GGCM的模型（ $G_1$ ）PSNR下降幅度大于消融LGCM的模型（ $G_2$ ），且颜色偏差更明显，证明GGCM在全局光照增强中作用更关键，LGCM主要辅助减少局部偏差。
COMO-ViT注意力有效性：消融局部注意力的模型（ $A_1$ ）性能最差，完整“局部+全局”注意力模型（ $A_4$ ）性能最优，且优于旁路结构（ $A_3$ ），说明“局部-全局”分层注意力能更有效建模像素依赖。
窗口大小影响：窗口大小为16时，模型参数（0.326M）比4（0.735M）、32（1.016M）更高效，且性能差异小，故设为默认值。

在这里插入图片描述

四、总结

核心贡献：提出IAGC网络，首次将可学习伽马校正（GGCM+LGCM）与完整图像建模Transformer（COMO-ViT）结合，解决了现有方法对低光图像有效光照恢复表征提取不敏感的问题；通过泰勒级数近似降低计算复杂度，平衡性能与效率。
方法优势：“从粗到精”的增强策略能逐步优化光照，COMO-ViT的“局部-全局”注意力可完整建模像素依赖，有效利用亮区域信息恢复暗区域，最终在定量指标与定性效果上均超越现有主流方法。

感谢阅读，欢迎留言或私信，一起探讨和交流。
如果对你有帮助的话，也希望可以给博主点一个关注，感谢。

查看全文

http://www.dtcms.com/a/487107.html