【CVPR 2025】低光增强RT-X Net( 红外辅助结构引导)--part1论文精读
【CVPR 2025】本文参考论文RT-X NET: RGB-THERMAL CROSS ATTENTION NETWORK FOR LOW-LIGHT IMAGE ENHANCEMENT Transformer Design
下面对方法论部分进行详细分析
论文提出网络类似Retinexformer / SG-LLIE,感兴趣的可以在我的主页进一步学习
论文地址:arxiv
代码地址:github
文章目录
- **RT-X Net 核心方法论深度剖析**
- **3.1 基于Retinex理论的分解与光照引导 (Retinex-based Decomposition and Illumination Guidance)**
- **3.2 用于特征提取的自注意力机制 (Self-Attention for Feature Extraction)**
- **3.3 用于RGB-热成像融合的跨注意力机制 (Cross-Attention for RGB-Thermal Fusion)**
- **3.4 增强图像重建 (Enhanced Image Reconstruction)**
RT-X Net 核心方法论深度剖析
RT-X Net 的核心创新在于设计了一个双分支网络架构,该架构利用跨注意力机制(Cross-Attention)将标准可见光(RGB)图像和热成像(Thermal)图像的信息进行高效融合,以应对极低光照下的图像增强挑战。整个方法论可以分解为以下四个紧密相连的步骤。
3.1 基于Retinex理论的分解与光照引导 (Retinex-based Decomposition and Illumination Guidance)
此阶段是数据预处理和初始特征提取的关键,其目的是在正式进入复杂的Transformer网络之前,对输入数据进行初步的亮度和特征引导。
- 理论基础: 该网络借鉴了经典的Retinex理论。该理论指出,一幅图像 III 可以被视为物体固有的反射分量 RRR 和场景的环境光照分量 MMM 的逐元素乘积,即 I=R⊙MI = R \odot MI=R⊙M。在低光照条件下,RRR 保存了场景的稳定结构和纹理,而 MMM 则捕捉了光照的不足和变化。
- 光照估计器 (Illumination Estimator): 网络首先使用一个“光照估计器”模块来处理输入的RGB和热成像图像。这个模块有两个输出:
- 光照图 (Illumination Map) MMM: 一个与输入图像尺寸相同的单通道图,用于表示光照强度分布。
- 光照特征 (Illumination Features) FillumF_{illum}Fillum: 更为抽象的光照相关特征,用于后续的注意力引导。
- 双分支差异化处理:
- RGB分支: 对于RGB输入图像,网络会将其与预测出的光照图 MMM 进行逐元素相乘,生成一幅被初步“照亮”的图像 (Lit-up Image)。这一步骤的目的是在送入后续的自注意力网络前,对图像的亮度进行初步补偿,使其具有更丰富的视觉信息。
- 热成像分支: 对于热成像输入,由于其信息捕捉不依赖于可见光强度,因此无需进行“照亮”操作。网络仅从该分支提取光照特征 FillumF_{illum}Fillum。这些特征能够反映场景中物体的热量分布,间接提供了与光照无关的结构信息。
3.2 用于特征提取的自注意力机制 (Self-Attention for Feature Extraction)
在经过初步的光照引导后,两个分支的特征被送入各自的自注意力模块(Self Attention Block)中,以捕捉图像内部的全局依赖关系。
- 目的: 自注意力机制能够有效编码图像的空间上下文信息和像素间的长距离依赖关系,这对于恢复低光照下丢失的结构至关重要。
- 光照引导下的自注意力: 这并非标准的自注意力。此处的关键创新在于,前一阶段提取的 光照特征 FillumF_{illum}Fillum 被整合进自注意力计算中。具体来说,FillumF_{illum}Fillum 作为一个可学习的重加权项,作用于标准注意力公式中的值(Values, VVV)上。
- 标准注意力公式为: Attn(Q,K,V)=softmax(QKTdk)VAttn(Q, K, V) = softmax(\frac{Q K^T}{\sqrt{d_k}})VAttn(Q,K,V)=softmax(dkQKT)V。
- 通过对 VVV 进行加权,该机制能够让网络在计算注意力时,更多地关注那些在原始场景中可能更亮或包含更关键信息的区域(例如灯光、窗户等),即使这些区域在低光图像中已经变得非常暗淡。
- 输出: 经过这一步处理,网络分别得到了两个经过自注意力增强的特征图:来自RGB分支的 xRGBax_{RGB}^{a}xRGBa 和来自热成像分支的 xThermax_{Therm}^{a}xTherma。
3.3 用于RGB-热成像融合的跨注意力机制 (Cross-Attention for RGB-Thermal Fusion)
这是整个网络架构的核心,负责将两个模态的信息进行智能、高效的融合。
- 融合机制: 模块采用一个多头跨注意力算子(Multi-head Cross-Attention, MCA)来融合 xRGBax_{RGB}^{a}xRGBa 和 xThermax_{Therm}^{a}xTherma。
- 工作原理: 跨注意力的精髓在于其非对称的信息查询方式。具体来说,它的 查询(Queries) 来自一个模态(例如RGB特征),而 键(Keys)和值(Values) 则来自另一个模态(热成像特征)。
- 这种机制允许网络以RGB特征为基础,去“查询”热成像特征中相关的结构和纹理信息。由于热成像图像不受黑暗和眩光的影响,其特征 xThermax_{Therm}^{a}xTherma 往往能为极低光场景提供更清晰的结构线索。因此,热成像特征可以有效地“引导”和“优化”RGB特征空间,为其补充在低光下丢失的细节。
- 特征降维: 在特征融合之后,网络应用了 主成分分析(Principal Component Analysis, PCA) 步骤来降低特征通道的维度。这一步有两个目的:一是为了控制计算开销,使模型更高效;二是为了引导网络将注意力集中到那些融合了两种模态信息后最具辨识度的特征组合上。
3.4 增强图像重建 (Enhanced Image Reconstruction)
这是网络的最后阶段,负责将融合后的抽象特征解码为最终的增强图像。
- 重建网络: 经过跨注意力融合和PCA降维后的特征 xcx^{c}xc 被送入一个重建网络。该网络由多个可训练的 MLP头(MLP Header) 组成,负责将高级特征映射回像素空间,生成最终的增强图像。
- 损失函数: 模型的训练过程通过最小化 平均绝对误差(Mean Absolute Error, MAE) 损失函数来优化。
- 其数学公式为:L=1N∑i=1N∣∣I^out(i)−Igt(i)∣∣1\mathcal{L}=\frac{1}{N}\sum_{i=1}^{N}||\hat{I}_{out}^{(i)}-I_{gt}^{(i)}||_{1}L=N1∑i=1N∣∣I^out(i)−Igt(i)∣∣1。
- 其中,$ \hat{I}{out}^{(i)} $ 是网络生成的增强图像,$ I{gt}^{(i)} $ 是与之对应的高质量、光照充足的“地面真实”(Ground Truth)图像。该损失函数直接计算生成图像与真实图像在像素级别上的差异,引导网络学习生成视觉上更接近真实场景的图像。