当前位置: 首页 > news >正文

【论文精读】ThermoStereoRT:全天候实时热成像立体匹配的创新方案

标题:ThermoStereoRT: Thermal Stereo Matching in Real Time via Knowledge Distillation and Attention-based Refinement
作者:Anning Hu, Ang Li, Xirui Jin, Danping Zou(上海交通大学导航与位置服务重点实验室)
论文链接
https://arxiv.org/pdf/2504.07418
代码地址https://github.com/SJTU-ViSYS-team/ThermoStereoRT


在计算机视觉领域,立体匹配技术是实现深度感知的核心手段,广泛应用于机器人导航、自动驾驶、3D 重建等场景。然而,传统基于 RGB 图像的立体匹配方法在低光照、烟雾、雾天等恶劣环境下性能严重下降,难以满足全天候作业需求。热成像相机不受环境光照影响,能在极端条件下稳定工作,但热成像图像存在纹理缺失、噪声高、分辨率低等问题,且标注数据稀疏,给立体匹配带来巨大挑战。

上海交通大学邹丹平教授课题组提出的ThermoStereoRT方法,创新性地结合轻量级网络架构、注意力机制与知识蒸馏技术,实现了热成像立体匹配的实时性与高精度平衡。本文将从研究背景、方法设计、实验验证、核心创新与应用前景五个维度,对该论文进行全面精读,深入解析其技术细节与突破点。

一、研究背景与挑战

1.1 立体匹配技术的现状与局限

立体匹配的核心目标是从两台校正相机拍摄的图像对中计算视差图,进而反推深度信息。目前主流方法主要基于 RGB 图像,可分为两类:

  • 传统学习型方法:如 PSMNet、AANet 等,通过 3D 卷积正则化代价体提升精度,但计算复杂度极高,难以在嵌入式设备上实时运行;
  • 迭代优化方法:如 RAFT-Stereo、CRE-Stereo 等,通过循环更新视差估计改善性能,但低分辨率热成像图像会导致其收敛困难,精度骤降。

RGB 相机的本质缺陷在于依赖环境光照,在夜间、雾天、浓烟等场景下会因图像信息丢失而失效,而热成像相机通过探测物体热辐射成像,完全不受光照影响,成为全天候场景的理想选择。

1.2 热成像立体匹配的核心挑战

尽管热成像技术具备环境鲁棒性,但将其应用于立体匹配时面临三大关键问题:

  1. 图像质量差:热成像图像分辨率低(通常为 256×640 或 480×640)、纹理稀疏、噪声高,导致特征匹配歧义性大;
  2. 标注数据稀缺:现有热成像立体数据集(如 MS2、CATS)规模小且地面真值(GT)稀疏(多由 LiDAR 采集,存在大量空白区域),难以支撑深度模型训练;
  3. 实时性需求:实际应用(如无人机夜间监控、床底清洁机器人)对推理速度要求高,传统复杂模型无法满足嵌入式设备部署需求。

为解决上述挑战,ThermoStereoRT 从网络轻量化、特征增强、数据增强三个维度提出创新方案,实现了 “高精度 + 实时性” 的双重突破。

二、方法设计:ThermoStereoRT 的完整架构

ThermoStereoRT 的核心框架分为四大部分:轻量级编码器(Shallow Encoder)、多尺度聚合模块(Multi-Scale Aggregation)、空间注意力细化模块(Spatial Attention Refinement),以及知识蒸馏模块(Knowledge Distillation)。整体流程如下,输入为一对校正后的热成像图像,输出为最终视差图。

2.1 浅层编码器:高效特征提取

传统立体匹配模型(如 PSMNet)采用深层 CNN 提取特征,导致计算量过大。ThermoStereoRT 受 NeuFlow 启发,设计了浅层 CNN 编码器,在保证特征表达能力的同时大幅降低计算成本。

核心设计细节
  • 图像金字塔构建:对输入热成像图像I_M​(M∈{Left,Right})通过平均池化生成 5 个尺度的金字塔P_{M,s}​(s=1,2,4,8,16),对应分辨率为原图的 1/1~1/16;
  • 多尺度特征融合:为保留高分辨率细节,使用P_{M,1}​、P_{M,2}P_{M,4}通过 “双卷积块” 提取 1/4 分辨率特征F_{M,4}(通道数N_c);再将高分辨率特征下采样后与低分辨率特征拼接,得到 1/8、1/16 分辨率特征F_{M,8}F_{M,16}​,结构如图 4 所示;
  • 3D 相关性代价体构建:基于 1/4 分辨率的左右特征F_{L,4}​与F_{R,4},通过内积计算每个视差级别的相关性代价,公式如下:其中d为视差值,C_{corr}\in \mathbb{R}^{D_{max}\times H/4\times W/4}, D_{max}​为最大视差。该设计避免了深层网络的冗余计算,同时通过多尺度特征覆盖细结构与大视差场景。

2.2 多尺度聚合模块:代价体优化

代价体的质量直接决定视差估计精度。ThermoStereoRT 基于 MobileNetV3 残差块构建聚合网络,通过多尺度卷积(MSC) 与注意力机制增强代价体的判别性。

核心设计细节
  • 残差连接与 SE 模块:在 1/4、1/8 分辨率处引入残差连接,缓解梯度消失问题;嵌入 Squeeze-and-Excitation(SE)模块,动态调整通道权重,突出有效特征;
  • 跨注意力特征增强:以左图 1/16 特征F_{L,16}为查询(Query),右图 1/16 特征F_{R,16}​为键(Key)和值(Value),通过全局跨注意力生成F_{cross,16}​,增强特征区分度;
  • 多尺度卷积(MSC):对F_{L,4}F_{L,8}F_{cross,16}​应用 1×1、7×7、11×11、21×21 四种卷积核,捕捉局部与全局信息,生成注意力权重并与聚合网络中间输出相乘,得到优化后的代价体C_{refine},公式如下:
  • 连续视差回归:通过软 argmin 函数从C_{refine}​中计算初始视差图D_{init},避免离散视差的量化误差:,其中σ(⋅)为 softmax 函数,用于计算每个视差值的概率。

2.3 空间注意力细化模块:视差精度提升

初始视差图Dinit​可能存在边缘模糊、小目标丢失等问题。ThermoStereoRT 设计了轻量级空间注意力细化模块,通过单步操作(而非迭代)实现视差调整,兼顾精度与速度,结构如图 6 所示。

核心设计细节
  • 特征融合:将左图 1/4 与 1/8 分辨率特征通过 MergeCNN 融合,得到F_{L,merge}​;根据D_{init}将右图融合特征F_{R,merge}扭曲(Warp)到左图视角;
  • 相关性注意力计算:计算扭曲后的右图特征与左图特征的相关性,生成W_{corr},反映特征错位程度,用于指导视差调整:
  • 多感受野解码:将F_{L,merge}D_{init}​、W_{corr}拼接为F_{Concat},使用 1×1(捕捉局部细节)与 3×3(捕捉全局结构)卷积核解码视差调整量D_\Delta​;引入注意力权重W_{attn}(基于全局信息与通道注意力训练),自适应融合两种卷积输出,避免直接拼接的信息冗余;
  • 最终视差生成:将D_\Delta​与D_{init}相加,通过 RAFT 的凸上采样(Convex Upsample)恢复到原图分辨率,得到D_{final}

2.4 知识蒸馏:解决数据稀疏问题

热成像数据集的稀疏 GT 无法充分训练模型,ThermoStereoRT 引入三阶段知识蒸馏,利用教师模型生成密集伪标签,提升学生模型(ThermoStereoRT)的泛化能力,且不增加推理时计算量。

蒸馏流程(如图 3 下部所示)
  1. 密集标签生成(Dense Label Generation)
    • 预训练一个计算密集型教师模型(Selective-IGEV,在相同实验设置下 EPE 最低),先使用合成数据(如 SceneFlow,转换为灰度图模拟热成像)训练,再用稀疏 GT 微调;
    • 利用微调后的教师模型对热成像图像生成高质量密集伪标签。
  2. 密集训练(Dense Training):以密集伪标签为监督,训练学生模型(ThermoStereoRT),学习细粒度视差信息。
  3. 稀疏训练(Sparse Training):用原始稀疏 GT 对学生模型进行微调,避免伪标签引入的误差,优化最终性能。
损失函数设计

采用序列 L1 损失,对不同阶段的视差预测(D_{init}​、D_{final})赋予指数递增权重,强调最终预测的准确性:​其中γ=0.9(权重衰减系数),N=2(预测阶段数),D_{gt}为地面真值。

三、实验验证:全面评估性能

为验证 ThermoStereoRT 的有效性,团队在两个主流热成像立体数据集(MS2、CATS)上进行了基准测试、消融实验与实时性评估,对比了 10 余种主流方法(如 PSMNet、RAFT-Stereo、LightStereo)。

3.1 实验设置

数据集详情
数据集场景覆盖图像数量(热成像)分辨率测试场景
MS2驾驶场景训练 76,544 / 验证 400 / 测试 71,253256×640白天 / 夜间 / 雨天
CATS室内 + 室外训练 134 / 验证 34480×640杂乱环境

SceneFlow

(合成)

虚拟场景训练 34,801540×960

模拟热成像

(灰度值 0-40)

硬件与训练参数
  • 训练环境:单张 NVIDIA A6000 GPU,PyTorch 框架;
  • 批量大小:4(保持原始分辨率训练);
  • 优化器:AdamW,学习率调度:One-Cycle(最大学习率 0.001);
  • 训练步数:MS2 数据集 200k 步,CATS 数据集 30k 步;蒸馏阶段:教师模型 100k(合成)+150k(MS2),学生模型 100k(伪标签)+150k(MS2)。

3.2 基准测试结果

1. MS2 数据集性能

MS2 数据集是目前最大的热成像立体数据集,覆盖白天、夜间、雨天三种复杂场景,评估指标包括端点误差(EPE,越低越好) 和异常值比例(误差 > 0.5/1 像素,越低越好),以及计算量(FLOPs)、参数量(Params)、帧率(FPS)。

核心结论:

  • 精度领先:ThermoStereoRT(Ours)在所有场景下 EPE 均低于实时方法(如 LightStereo、StereoNet),白天 EPE 0.2240,夜间 0.3426,雨天 0.2934,比 LightStereo 提升 11.6%,比 StereoNet 提升 51.5%;
  • 实时性优秀:在 NVIDIA Jetson Xavier NX(嵌入式设备)上帧率达 12.58 FPS,Ours-S(移除 SE 模块)达 14.79 FPS,满足实时需求;而高精度非实时方法(如 Selective-IGEV)帧率仅 0.89 FPS,无法部署;
  • 轻量化:参数量 3.21 M,FLOPs 31.38 G,远低于 PSMNet(5.22 M/155.53 G)、RAFT-Stereo(11.10 M/467.39 G)。
2. CATS 数据集性能

CATS 数据集场景更杂乱,测试室内外视差估计能力。结果显示:

  • ThermoStereoRT 在室内场景 EPE 1.074,室外 1.052,是实时方法中最低;
  • 异常值比例(>5 像素)室内 3.960%、室外 3.419%,优于 RAFT-Stereo(室内 3.690%/ 室外 2.916%,但 RAFT-Stereo 非实时)。
3. 定性结果可视化分析

  • 图 5(MS2 数据集):ThermoStereoRT 预测的视差图误差(蓝色区域)更小,能清晰恢复远处车辆、树木、电线杆的细节,而 RAFT-Stereo、MSNet2D 存在明显误匹配;

  • 图 2(CATS 数据集):室内场景中,ThermoStereoRT 能从模糊热成像图像中恢复球体轮廓;室外场景中,准确还原人体形状,而其他方法出现轮廓断裂或错位。

3.3 知识蒸馏效果

为验证蒸馏的有效性,对比了模型在 “有无蒸馏” 下的性能提升:

  • ThermoStereoRT(Ours)在蒸馏后,白天 EPE 降低 6.82%,夜间降低 6.83%,雨天降低 6.92%;
  • 其他方法(如 LightStereo)蒸馏后也有性能提升,但 ThermoStereoRT 提升更显著,证明蒸馏能有效利用密集伪标签弥补稀疏 GT 的不足。

3.4 消融实验

消融实验针对 ThermoStereoRT 的核心模块(注意力权重Wattn​、相关性注意力Wcorr​、SE 模块、细化模块)进行逐一移除,验证各模块的必要性:

  • 移除细化模块(w/o refine):EPE 上升最显著(白天从 0.2405→0.2847),证明空间注意力细化对细节恢复至关重要;
  • 移除Wattn​或Wcorr​:EPE 均上升(如 w/o Wattn​白天 EPE→0.2607),说明多感受野融合与左右特征相关性对精度的贡献;
  • 移除 SE 模块(w/o SE):夜间 EPE 从 0.3680→0.3890,证明通道注意力能增强特征判别性。

3.5 实时性评估

在嵌入式设备(NVIDIA Jetson Xavier NX,21 TOPS)上的帧率测试显示:

  • ThermoStereoRT(Ours)帧率 12.58 FPS,Ours-S 达 14.79 FPS,Ours-T(移除 SE + 细化)达 19.90 FPS,均满足实时需求;
  • 传统高精度方法(如 PSMNet、Selective-IGEV)帧率低于 3 FPS,无法在嵌入式设备上运行。

四、核心创新与局限性

4.1 三大核心创新

  1. 轻量级架构设计:通过浅层编码器、MobileNetV3 残差块、单步细化模块,在保证精度的同时将参数量控制在 3.21 M,FLOPs 31.38 G,实现嵌入式设备部署;
  2. 注意力机制融合:多尺度卷积注意力(MSC)增强代价体、空间注意力细化(Wattn​、Wcorr​)提升视差细节、SE 模块优化通道权重,全方位解决热成像图像纹理缺失问题;
  3. 知识蒸馏方案:三阶段蒸馏(密集标签生成→密集训练→稀疏微调)有效利用合成数据与伪标签,突破热成像数据集稀疏 GT 的限制,且不增加推理成本。

4.2 局限性与未来方向

  1. 视差范围限制:当前方法基于固定最大视差Dmax​,对超远距离场景(如无人机高空监控)的大视差估计可能存在误差;
  2. 动态场景适配:未针对动态目标(如快速移动的行人、车辆)进行优化,运动模糊可能导致视差估计偏差;
  3. 多模态融合潜力:未结合 RGB 图像(若光照条件允许)进一步提升精度,未来可探索热成像 - RGB 跨模态立体匹配。

五、应用前景与总结

5.1 典型应用场景

ThermoStereoRT 的 “全天候 + 实时性 + 轻量化” 特性使其在多个领域具备落地潜力:

  • 夜间无人机监控:不受光线影响,实时生成深度图,辅助目标检测与跟踪;
  • 室内服务机器人:如床底清洁机器人,通过热成像感知障碍物深度,避免碰撞;
  • 自动驾驶:雾天、雨天等恶劣天气下,补充 RGB 相机的深度感知能力,提升行驶安全;
  • 安防巡检:黑暗环境中对人员、设备的深度定位,支持智能预警。

5.2 总结

ThermoStereoRT 针对热成像立体匹配的三大核心挑战(图像质量差、数据稀疏、实时性需求)提出了系统性解决方案:通过轻量级架构实现高效推理,通过多注意力机制增强特征表达,通过知识蒸馏突破数据限制。实验证明,该方法在 MS2、CATS 数据集上均实现 “精度领先 + 实时性优秀”,为全天候立体匹配提供了新的技术范式,也为热成像视觉的工业化应用奠定了基础。

论文代码已开源(https://github.com/SJTU-ViSYS-team/ThermoStereoRT),感兴趣的读者可进一步探索其实现细节与扩展应用。

http://www.dtcms.com/a/487109.html

相关文章:

  • 数位dp.
  • 【LLIE技术专题】基于光照感知伽马校正与完整图像建模网络的低光图像增强(IAGC)方案
  • Python中的时区转换与处理
  • FTP主动连接和被动连接
  • 【微服务】SpringBoot 整合 FastExcel 实现导入导出操作详解
  • 高端做网站多少钱搜索引擎优化基本
  • 去国外做外卖网站好房子如何上网站做民宿
  • 做电商设计在哪个网站接单做网站中的剪辑图片
  • 从 0 到 1 理解前端工程化:图表化解析核心逻辑
  • 集团型空调厂产能优化:跨厂区压缩机调配与组装线负荷平衡逻辑
  • 可以带锚文本的网站网站开发对算法有要求么
  • 鸿蒙Harmony实战开发教学(No.1)-IDE新版本安装篇
  • 开发 iOS 应用全流程指南,环境搭建、证书配置与跨平台使用 开心上架 上架AppStore
  • 南宁网站推广经理中国外包加工网
  • lesson72:Node.js 安全实战:Crypto-Js 4.2.0 与 Express 加密体系构建指南
  • 03 Eclipse 配置 JDK 环境
  • 移动终端安全:实验3-Drozer关键模块的使用
  • wordpress批量添加tag重庆网站优化服务
  • 数字化转型下,各类实验室软件如何构建高效合规的智能生态?
  • 网站建设纟金手指下拉壹陆英文网站的建设
  • Linux服务器编程实践26-TCP连接超时重连机制:超时时间计算与重连策略
  • 宁波建站平台网站突然打不开
  • 深圳哪家网站建设网页开发需求定制
  • h5游戏免费下载:避开红点
  • 在actix-web中创建一个提取器
  • 一个CTO的一天:Indie Team Kickoff
  • C++ 链表技巧
  • 贪心:Stall Reservations S(重写)
  • 商城网站有免费建设的吗网站开发的主要内容
  • 泉州企业网站设计招商网站建设网