当前位置: 首页 > news >正文

【CVPR 2025】低光增强RT-X Net( 红外辅助结构引导)--part1论文精读

【CVPR 2025】本文参考论文RT-X NET: RGB-THERMAL CROSS ATTENTION NETWORK FOR LOW-LIGHT IMAGE ENHANCEMENT Transformer Design
下面对方法论部分进行详细分析
论文提出网络类似Retinexformer / SG-LLIE,感兴趣的可以在我的主页进一步学习
论文地址:arxiv
代码地址:github

文章目录

      • **RT-X Net 核心方法论深度剖析**
        • **3.1 基于Retinex理论的分解与光照引导 (Retinex-based Decomposition and Illumination Guidance)**
        • **3.2 用于特征提取的自注意力机制 (Self-Attention for Feature Extraction)**
        • **3.3 用于RGB-热成像融合的跨注意力机制 (Cross-Attention for RGB-Thermal Fusion)**
        • **3.4 增强图像重建 (Enhanced Image Reconstruction)**


RT-X Net 核心方法论深度剖析

RT-X Net 的核心创新在于设计了一个双分支网络架构,该架构利用跨注意力机制(Cross-Attention)将标准可见光(RGB)图像和热成像(Thermal)图像的信息进行高效融合,以应对极低光照下的图像增强挑战。整个方法论可以分解为以下四个紧密相连的步骤。
在这里插入图片描述

3.1 基于Retinex理论的分解与光照引导 (Retinex-based Decomposition and Illumination Guidance)

此阶段是数据预处理和初始特征提取的关键,其目的是在正式进入复杂的Transformer网络之前,对输入数据进行初步的亮度和特征引导。

  • 理论基础: 该网络借鉴了经典的Retinex理论。该理论指出,一幅图像 III 可以被视为物体固有的反射分量 RRR 和场景的环境光照分量 MMM 的逐元素乘积,即 I=R⊙MI = R \odot MI=RM。在低光照条件下,RRR 保存了场景的稳定结构和纹理,而 MMM 则捕捉了光照的不足和变化。
  • 光照估计器 (Illumination Estimator): 网络首先使用一个“光照估计器”模块来处理输入的RGB和热成像图像。这个模块有两个输出:
    1. 光照图 (Illumination Map) MMM: 一个与输入图像尺寸相同的单通道图,用于表示光照强度分布。
    2. 光照特征 (Illumination Features) FillumF_{illum}Fillum: 更为抽象的光照相关特征,用于后续的注意力引导。
  • 双分支差异化处理:
    • RGB分支: 对于RGB输入图像,网络会将其与预测出的光照图 MMM 进行逐元素相乘,生成一幅被初步“照亮”的图像 (Lit-up Image)。这一步骤的目的是在送入后续的自注意力网络前,对图像的亮度进行初步补偿,使其具有更丰富的视觉信息。
    • 热成像分支: 对于热成像输入,由于其信息捕捉不依赖于可见光强度,因此无需进行“照亮”操作。网络仅从该分支提取光照特征 FillumF_{illum}Fillum。这些特征能够反映场景中物体的热量分布,间接提供了与光照无关的结构信息
3.2 用于特征提取的自注意力机制 (Self-Attention for Feature Extraction)

在经过初步的光照引导后,两个分支的特征被送入各自的自注意力模块(Self Attention Block)中,以捕捉图像内部的全局依赖关系。

  • 目的: 自注意力机制能够有效编码图像的空间上下文信息和像素间的长距离依赖关系,这对于恢复低光照下丢失的结构至关重要。
  • 光照引导下的自注意力: 这并非标准的自注意力。此处的关键创新在于,前一阶段提取的 光照特征 FillumF_{illum}Fillum 被整合进自注意力计算中。具体来说,FillumF_{illum}Fillum 作为一个可学习的重加权项,作用于标准注意力公式中的值(Values, VVV)上
    • 标准注意力公式为: Attn(Q,K,V)=softmax(QKTdk)VAttn(Q, K, V) = softmax(\frac{Q K^T}{\sqrt{d_k}})VAttn(Q,K,V)=softmax(dkQKT)V
    • 通过对 VVV 进行加权,该机制能够让网络在计算注意力时,更多地关注那些在原始场景中可能更亮或包含更关键信息的区域(例如灯光、窗户等),即使这些区域在低光图像中已经变得非常暗淡。
  • 输出: 经过这一步处理,网络分别得到了两个经过自注意力增强的特征图:来自RGB分支的 xRGBax_{RGB}^{a}xRGBa 和来自热成像分支的 xThermax_{Therm}^{a}xTherma
3.3 用于RGB-热成像融合的跨注意力机制 (Cross-Attention for RGB-Thermal Fusion)

这是整个网络架构的核心,负责将两个模态的信息进行智能、高效的融合。

  • 融合机制: 模块采用一个多头跨注意力算子(Multi-head Cross-Attention, MCA)来融合 xRGBax_{RGB}^{a}xRGBaxThermax_{Therm}^{a}xTherma
  • 工作原理: 跨注意力的精髓在于其非对称的信息查询方式。具体来说,它的 查询(Queries) 来自一个模态(例如RGB特征),而 键(Keys)和值(Values) 则来自另一个模态(热成像特征)。
    • 这种机制允许网络以RGB特征为基础,去“查询”热成像特征中相关的结构和纹理信息。由于热成像图像不受黑暗和眩光的影响,其特征 xThermax_{Therm}^{a}xTherma 往往能为极低光场景提供更清晰的结构线索。因此,热成像特征可以有效地“引导”和“优化”RGB特征空间,为其补充在低光下丢失的细节。
  • 特征降维: 在特征融合之后,网络应用了 主成分分析(Principal Component Analysis, PCA) 步骤来降低特征通道的维度。这一步有两个目的:一是为了控制计算开销,使模型更高效;二是为了引导网络将注意力集中到那些融合了两种模态信息后最具辨识度的特征组合上。
3.4 增强图像重建 (Enhanced Image Reconstruction)

这是网络的最后阶段,负责将融合后的抽象特征解码为最终的增强图像。

  • 重建网络: 经过跨注意力融合和PCA降维后的特征 xcx^{c}xc 被送入一个重建网络。该网络由多个可训练的 MLP头(MLP Header) 组成,负责将高级特征映射回像素空间,生成最终的增强图像。
  • 损失函数: 模型的训练过程通过最小化 平均绝对误差(Mean Absolute Error, MAE) 损失函数来优化。
    • 其数学公式为:L=1N∑i=1N∣∣I^out(i)−Igt(i)∣∣1\mathcal{L}=\frac{1}{N}\sum_{i=1}^{N}||\hat{I}_{out}^{(i)}-I_{gt}^{(i)}||_{1}L=N1i=1N∣∣I^out(i)Igt(i)1
    • 其中,$ \hat{I}{out}^{(i)} $ 是网络生成的增强图像,$ I{gt}^{(i)} $ 是与之对应的高质量、光照充足的“地面真实”(Ground Truth)图像。该损失函数直接计算生成图像与真实图像在像素级别上的差异,引导网络学习生成视觉上更接近真实场景的图像。
http://www.dtcms.com/a/291817.html

相关文章:

  • 开发者的AI认知指南:用大模型重新理解人工智能(下)
  • 公交车客流人数统计管理解决方案:智能化技术与高效运营实践
  • 九鼎X8390 开发板 联发科 MT8390 / MT8370 芯片平台
  • 华为高斯Gauss数据库版本与兼容协议--详解(附带Gorm连接示例代码)
  • 5G工业路由器如何凭借高性价比助力多行业数字化转型?
  • 2025 LCP用2,6酸市场前瞻:全面洞察与投资潜力预测
  • iOS组件化详解
  • Windows 环境下,使用 VirtualBox 安装 Ubuntu 虚拟机
  • 34、鸿蒙Harmony Next开发:使用动画-转场动画
  • JMeter groovy 编译成.jar 文件
  • RabbitMQ--批量处理
  • 【Zephyr开发实践系列】09_LittleFs文件系统操作
  • 在easyui中如何自定义表格里面的内容
  • 目标检测系列(六)labelstudio实现自动化标注
  • vue2 webpack 部署二级目录、根目录nginx配置及打包配置调整
  • 容器化部署 Tomcat + MySQL 实战指南:从入门到进阶
  • MongoDB数据库详解-针对大型分布式项目采用的原因以及基础原理和发展-卓伊凡|贝贝|莉莉
  • 架构演进核心路线:从离线仓库到实时湖仓一体
  • LLM评测框架Ragas Agents or Tool Use Cases指标(解决了Ollama推理框架不支持的问题)
  • 微软徽标认证是什么?如何快速获取驱动签名?
  • Linux操作系统从入门到实战(十二)Linux操作系统第一个程序(进度条)
  • 【用户管理】usermod设置主组和附加组(三)
  • es搜索实现既能模糊查询又能分词查询
  • [Dify] -进阶10- Dify 的用户输入结构:变量、参数、文件上传全解析
  • stm32 智能小车
  • 【多线程篇22】:ConcurrentHashMap的并发安全原理剖析
  • 低成本、高泛化能力的无人机自主飞行!VLM-Nav:基于单目视觉与视觉语言模型的无地图无人机导航
  • C++类和对象(3)
  • 从零搭建 OpenCV 项目(新手向)--第一天初识OpenCV与图像基础
  • MCP:Cline+DeepSeek在VSCode上配置