当前位置：首页 > news >正文

【LLIE专题】GT-Mean Loss：一种低照度图像增强的损失函数

news 2025/9/26 15:24:27

在这里插入图片描述

GT-Mean Loss: A Simple Yet Effective Solution for Brightness Mismatch in Low-Light Image Enhancement（ICCV 2025）

专题介绍
一、研究背景
二、方法
- - 1. 核心公式
  - 2. 权重W的设计逻辑
  - - (1) 亮度均值的概率建模
    - (2) 计算亮度分布的巴氏距离 $D_B$
    - (3) 权重 $W$ 的裁剪与确定
三、实验结果
- - 1. 实验设置
  - - （1）基线模型与数据集
    - （2）评价指标
  - 2. 实验结果
  - - （1）配对数据集：性能全面提升
    - （2）非配对数据集：泛化性优异
    - （3）训练动态：优化更稳定高效
    - （4）参数σ影响
四、总结

本文将对 GT-Mean Loss: A Simple Yet Effective Solution for Brightness Mismatch in Low-Light Image Enhancement，这篇文章进行讲解。参考资料如下：

[1] 文章
[2] 代码

专题介绍

在低光照环境下，传统成像设备往往因画面昏暗、细节丢失而受限。LLIE（低照度暗光增强）技术应运而生，它通过提升图像亮度、对比度，减少噪点并恢复色彩细节，让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步，近年来借助深度学习，尤其是卷积神经网络（CNN），GAN模型，扩散模型实现了质的飞跃。这些算法能自动学习图像特征，精准处理低光照图像，效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展，让我们一起见证LLIE如何点亮暗夜，开启视觉新视界！欢迎一起探讨交流！

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet
【9】EnligtenGAN
【10】PTG
【11】CSNorm
【12】SG-LLIE结构提取方案
【13】SAIGFormer
【14】BEM
【15】SKF
【16】SIED
【17】LYT-Net

一、研究背景

低光图像增强（LLIE）是计算机视觉领域的关键任务，旨在提升弱光环境下拍摄图像的视觉质量。在有监督LLIE研究中，存在一个常被忽视的核心问题——亮度失配：增强图像与真值图像（GT）的整体亮度不一致，表现为增强图像亮度均值 $E[f(x)]\mathbb{E}[f(x)]$ 与真值图像亮度均值 $E[y]\mathbb{E}[y]$ 不相等。
在这里插入图片描述

亮度失配会误导模型训练，其根源在于三方面问题：

不可避免的亮度残差：低光到正常光图像的非线性映射必然导致微小亮度残差，引发亮度失配。
损失函数敏感性：L1/L2等像素级损失即使亮度差异视觉上可忽略，仍会对其惩罚。
与人类感知脱节：当亮度足够时，人类视觉更关注噪声抑制、色彩保真度，但这些因素在像素级损失中的权重远低于亮度残差，导致模型过度追求亮度对齐，陷入无效优化循环（例如上图中，L1损失给噪声严重的图像更低损失值，却给细节清晰但亮度稍低的图像更高损失值）。

现有解决方案存在缺陷：多个子网络分离亮度与其他因素会增加模型复杂度和计算开销；感知损失虽能部分规避像素级对齐，却牺牲了重建保真度，缺乏统一高效的方案。

二、方法

1. 核心公式

GT-Mean Loss是对现有LLIE损失函数的扩展，通过动态平衡两个优化目标，实现端到端训练，公式如下：
$LGT(f(x),y)=W⋅L(f(x),y)+(1−W)⋅L(E[y]E[f(x)]f(x),y)L_{GT}(f(x), y) = W \cdot L(f(x), y) + (1-W) \cdot L\left(\frac{\mathbb{E}[y]}{\mathbb{E}[f(x)]}f(x), y\right)$

原始损失项： $L (f (x), y)$ ，保留模型基线性能，确保增强图像与真值图像的基础相似性。
亮度对齐损失项： $L(E[y]E[f(x)]f(x),y)L\left(\frac{\mathbb{E}[y]}{\mathbb{E}[f(x)]}f(x), y\right)$ ，通过缩放因子 $E[y]E[f(x)]\frac{\mathbb{E}[y]}{\mathbb{E}[f(x)]}$ 调整增强图像亮度，使其均值与真值图像对齐，消除亮度差异对优化的干扰。
权重W：基于增强图像与真值图像亮度分布的巴氏距离（Bhattacharyya Distance）计算，取值范围[0,1]，实现两个损失项的动态平衡。

2. 权重W的设计逻辑

在此论文提出的GT-mean损失函数中，权重 $W$ 是实现“原始损失项”与“亮度对齐损失项”动态平衡的核心参数，其计算过程围绕亮度分布的概率建模与巴氏距离（Bhattacharyya Distance）量化展开，具体可分为三个关键步骤：

(1) 亮度均值的概率建模

为贴合人类视觉对“微小亮度偏移不敏感”的特性，本文将增强图像与真值图像的亮度均值视为服从高斯分布的随机变量，为后续计算分布差异奠定基础：

真值图像（ $y$ ）的亮度分布
设真值图像的实际亮度均值为 $E[y]\mathbb{E}[y]$ ，将其视为随机变量 $E~[y]\tilde{\mathbb{E}}[y]$ 的一个观测值，且 $E~[y]\tilde{\mathbb{E}}[y]$ 服从高斯分布 $N(μy,σy2)\mathcal{N}(\mu_y, \sigma_y^2)$ 。其中：
- 均值 $μy=E[y]\mu_y = \mathbb{E}[y]$ （与实际亮度均值一致）；
- 方差 $σy2=(σα⋅E[y])2\sigma_y^2 = (\sigma_\alpha \cdot \mathbb{E}[y])^2$ ， $σα\sigma_\alpha$ 是控制分布离散程度的参数，用于模拟人类对亮度感知的不确定性。
增强图像（ $f (x)$ ）的亮度分布
同理，设增强图像的实际亮度均值为 $E[f(x)]\mathbb{E}[f(x)]$ ，对应随机变量 $E~[f(x)]\tilde{\mathbb{E}}[f(x)]$ 服从高斯分布 $N(μfx,σfx2)\mathcal{N}(\mu_{fx}, \sigma_{fx}^2)$ 。其中：
- 均值 $μfx=E[f(x)]\mu_{fx} = \mathbb{E}[f(x)]$ （与实际亮度均值一致）；
- 方差 $σfx2=(σβ⋅E[f(x)])2\sigma_{fx}^2 = (\sigma_\beta \cdot \mathbb{E}[f(x)])^2$ ， $σβ\sigma_\beta$ 是增强图像亮度分布的离散度参数。
简化假设
考虑到有监督LLIE任务中，增强图像应尽可能接近真值图像，作者假设两者亮度分布的离散度一致，即 $σα=σβ=σ\sigma_\alpha = \sigma_\beta = \sigma$ （实验中默认 $σ=0.1\sigma=0.1$ ），减少参数冗余的同时保证建模合理性。

(2) 计算亮度分布的巴氏距离 $D_B$

为量化上述两个高斯分布（真值图像与增强图像的亮度分布）的差异，作者选用巴氏距离作为度量指标——该指标对高斯分布有闭式解（无需迭代计算），能显著提升计算效率，其公式如下：
$DB(p∥q)=14⋅(μy−μfx)2σy2+σfx2+12⋅ln⁡(σy2+σfx22⋅σy⋅σfx)D_B(p \| q) = \frac{1}{4} \cdot \frac{(\mu_y - \mu_{fx})^2}{\sigma_y^2 + \sigma_{fx}^2} + \frac{1}{2} \cdot \ln\left( \frac{\sigma_y^2 + \sigma_{fx}^2}{2 \cdot \sigma_y \cdot \sigma_{fx}} \right)$
其中：

$p$ 代表真值图像亮度分布 $N(μy,σy2)\mathcal{N}(\mu_y, \sigma_y^2)$ ， $q$ 代表增强图像亮度分布 $N(μfx,σfx2)\mathcal{N}(\mu_{fx}, \sigma_{fx}^2)$ ；
第一项 $14⋅(μy−μfx)2σy2+σfx2\frac{1}{4} \cdot \frac{(\mu_y - \mu_{fx})^2}{\sigma_y^2 + \sigma_{fx}^2}$ ：衡量两个分布“均值差异”的贡献，均值差距越大，该项值越大；
第二项 $12⋅ln⁡(σy2+σfx22⋅σy⋅σfx)\frac{1}{2} \cdot \ln\left( \frac{\sigma_y^2 + \sigma_{fx}^2}{2 \cdot \sigma_y \cdot \sigma_{fx}} \right)$ ：衡量两个分布“方差差异”的贡献，方差差距越大，该项值越大；
最终 $D_B$ 的取值范围为 $+\infty)$ ： $D_B=0$ 表示两个分布完全一致， $D_B$ 越大表示分布差异越显著。

(3) 权重 $W$ 的裁剪与确定

由于 $W$ 需作为“两个损失项的加权系数”（取值需限制在 $[0, 1]$ ），本文对巴氏距离 $D_B$ 进行数值裁剪（clip） ，得到最终权重 $W$ ：
$\text{clip}(D_B(p \| q), 0, 1)$

该裁剪操作使 $W$ 具备明确的物理意义，对应三种训练场景：

当 $DB≥1D_B \geq 1$ （亮度分布差异极大）： $W = 1$ ，此时GT-mean损失仅保留“原始损失项”，优先保证模型基础训练能力，避免因亮度差异过大导致优化混乱；
当 $D_B = 0$ （亮度分布完全一致）： $W = 0$ ，此时GT-mean损失仅保留“亮度对齐损失项”，迫使模型聚焦噪声抑制、色彩保真等非亮度退化因素；
当 $0 < D_B < 1$ （亮度分布差异中等）： $W$ 取 $D_B$ 的实际值，实现两个损失项的平滑过渡，动态平衡亮度对齐与其他质量优化目标。

三、实验结果

1. 实验设置

（1）基线模型与数据集

7个基线模型：涵盖不同损失函数类型（L1、Smooth L1、Charbonnier、感知损失等），包括Restormer、RetinexFormer、LLFormer、MIRNet、Uformer、SNR-Aware、CID-Net。
数据集：
- 配对数据集：LOLv1（485训练/15测试）、LOLv2-real（689训练/100测试）、LOLv2-syn（900训练/100测试）。
- 非配对数据集：DICM、VV、NPE、MEF、LIME（用于验证泛化性）。

（2）评价指标

配对数据集：PSNR（像素保真度）、SSIM（结构相似性）、LPIPS（感知质量）、QALIGN（IQA图像质量评估、IAA美学评估）。
非配对数据集：QALIGN（IQA/IAA）、NIQE（无参考质量评估）、MUSIQ（多尺度质量评估）。

2. 实验结果

（1）配对数据集：性能全面提升

所有基线模型引入GT-Mean Loss后，在各项指标上均有改善：

例如RetinexFormer：PSNR提升0.731dB，LPIPS降低0.003，QALIGN-IQA提升0.346；
即使已用感知损失的模型（如SNR-Aware、CID-Net），性能仍显著提升，说明GT-Mean Loss可补充感知损失在像素级感知上的不足。

（2）非配对数据集：泛化性优异

在未训练过的非配对数据集上，GT-Mean Loss模型多数指标优于基线，例如：

Restormer在DICM数据集上，NIQE降低0.02，MUSIQ提升0.08，证明其未过拟合，泛化能力强；

在这里插入图片描述

视觉效果上，可有效缓解基线模型的天空区域伪影、轮廓光晕、过曝光/欠曝光等问题。

（3）训练动态：优化更稳定高效

对比四种训练策略（基线（W系数对应的那部分损失）、混合训练（先用w系数对应的那部分损失，然后用（1-W）系数对应的那部分损失）、全用（1-w）系数对应的那部分损失、GT-Mean Loss），GT-Mean Loss表现最优：

避免混合训练的性能波动（如80K迭代时PSNR骤降4.6dB）；
全程实现感知质量（LPIPS）、像素保真度（PSNR）、亮度差异的同步优化，最终输出在色彩保真度和细节清晰度上更接近真值。

（4）参数σ影响

在这里插入图片描述

训练早期（全周期前120K迭代）：不同σ值对应的PSNR曲线趋势基本一致，且与σ=0（原始L₁损失）的曲线重合度较高。这表明在训练初期，GT-mean损失的表现与原始L₁损失相近，能保留模型的基线训练能力，未因σ的不同产生明显性能偏差。
训练后期（最后30K迭代）：
- 所有σ≠0的设置均进入稳定阶段，且PSNR值持续高于σ=0的情况，证明GT-mean损失在训练后期能显著优于原始L₁损失，其亮度对齐机制开始发挥作用，帮助模型聚焦噪声抑制、细节保留等关键任务。
- 不同σ值间的性能差异较小，说明σ的取值对最终稳定性能影响有限，模型对σ具有较强的适应性。
σ的物理意义与推荐取值：σ在实验中用于衡量“亮度均值随机变量 $E~[⋅]\tilde{\mathbb{E}}[\cdot]$ 偏离实际观测亮度均值 $E[⋅]\mathbb{E}[\cdot]$ 的离散程度”，即控制亮度分布的波动范围。结合实验结果，作者推荐在实际应用中采用较小的σ值（默认设为0.1）——既能让GT-mean损失有效发挥动态平衡作用，又能避免因σ过大导致亮度分布波动剧烈，影响模型优化稳定性。