SwinPaste: 一种基于Swin Transformer的RGB引导热成像图像超分辨率框架
SwinPaste: A Swin Transformer-Based Framework for RGB-Guided Thermal Image Super-Resolution
SwinPaste: 一种基于Swin Transformer的RGB引导热成像图像超分辨率框架
作者:Hang Zhong, Yu Wang∗, and Shengjie Zhao
发表期刊:2025 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)
论文地址:https://arxiv.org/html/2404.14533v1
摘要
热成像在各种应用中发挥着关键作用,但其效能受到广泛使用的红外(IR)相机固有低分辨率的限制。传统的超分辨率(SR)技术在应用于热成像图像时经常遇到挑战,主要是由于其缺乏高频细节。为了缓解这一问题,引导式SR技术利用来自高分辨率图像的信息(通常在可见光谱中捕获)来促进从低分辨率输入重建高分辨率IR图像。受SwinFuSR的启发,我们提出了SwinPaste,一种基于Swin Transformer的RGB引导热成像图像超分辨率模型。首先,我们在预训练期间引入了一种数据混合策略,以增强数据多样性并提高模型鲁棒性。此外,我们采用多尺度监督信号来有效恢复高频细节,确保卓越的重建质量。我们提出的方法在PBVS 2025数据集上,在×8\times 8×8尺度下达到30.94 PSNR和0.9201 SSIM,在×16\times 16×16尺度下达到26.33 PSNR和0.8593 SSIM,在PBVS 2025 TISR挑战赛Track 2中排名第二。
1. 引言
热成像对于夜视和热特征检测等应用至关重要[9]。然而,常用红外相机的低分辨率限制了其捕获精细细节的能力[4]。虽然存在高分辨率红外传感器,但其高昂的成本使得低分辨率设备更加实用。为了解决这些局限性,热成像图像超分辨率(TISR)应运而生。然而,TISR面临着噪声和纹理质量差等挑战,这些问题可能会降低重建图像的质量。引导式热成像图像超分辨率(GTISR)通过使用高分辨率RGB图像作为外部参考提供了一种有前景的解决方案。这些RGB图像提供高频细节,提高了热成像图像重建的准确性和质量。这种方法既高效又经济,使其成为增强热成像图像清晰度和细节的实用方法。
在本文中,我们使用来自PBVS 2025 TISR挑战赛Track 2的数据集。该数据集包括两个SR任务:×8\times 8×8和×16\times 16×16。它由700个训练样本、200个验证样本和100个测试样本组成。每个样本包括一张高分辨率热成像图像、一张低分辨率热成像图像和一张引导RGB图像。模型使用PSNR和SSIM指标进行评估。该数据集具有低分辨率和复杂场景的特点,带来了重大挑战。
为了应对PBVS 2025数据集带来的挑战,我们提出了一种基于Swin Transformer的GTISR方法。为了进一步提高模型的泛化能力和鲁棒性,我们在预训练阶段引入了数据混合策略。此外,我们在重建过程中采用多尺度真值(GT)监督,这使得模型能够捕获细粒度细节并提高整体重建质量。
2. 相关工作
图像SR任务由于其广泛的适用性而引起了极大关注[12]。随着深度卷积神经网络(CNNs)的出现,传统SR方法得到了实质性的进步。例如,[3]引入了一种基于端到端CNN的单图像SR方法,该方法联合优化所有网络层以实现卓越性能。在此基础上,[7]提出了一种受VGGnet启发的非常深的卷积网络。他们利用级联的小滤波器来捕获大图像区域的上下文信息。通过结合残差学习并采用具有自适应梯度裁剪的高学习率,他们的方法在准确性和视觉质量方面都取得了显著改进。
近年来,基于Transformer的模型已成为SR任务的强大替代方案。例如,[8]提出了SwinIR,一种基于Swin Transformer的图像恢复任务模型。SwinIR由三个关键组件组成:浅层特征提取、深层特征提取和高质量图像重建。该架构在超分辨率、去噪和压缩伪影减少方面表现出强大的性能。[2]进行了进一步的改进,引入了交替的空间和通道自注意力机制来增强特征聚合。他们的方法结合自适应交互模块(AIM)和空间门控前馈网络(SGFN),显著改善了块内特征融合。最近,[5]提出了一种密集残差连接Transformer模型,该模型通过层间的密集残差连接解决了网络输出处特征图强度抑制的问题。这种设计稳定了信息流并缓解了信息瓶颈,进一步提升了SR性能。
虽然图像SR已被广泛研究,但GTISR仍然相对缺乏探索。热成像的独特挑战,如噪声和纹理限制,需要专门的方法。这一差距凸显了我们工作的重要性。
3. 方法
3.1. 架构

如图1所示,我们采用了受[10]启发的基于Swin Transformer的架构。该架构由三个关键模块组成[1]。在第一个模块中,使用卷积层从两个输入分支提取浅层特征,然后通过LLL个Swin Transformer层。接着,在第二个模块中,MMM个注意力引导的跨域融合(ACF)块从特征中提取有用信息。之后,使用拼接和卷积合并两个分支。最后,第三个模块通过PPP个上采样层和GT多尺度监督信号来细化合并后的特征。多尺度GT监督使用总损失函数,该函数对×2\times 2×2、×4\times 4×4和×8\times 8×8尺度的损失求和:
Ltotal=L×2+L×4+L×8,(1)\mathcal{L}_{total} = \mathcal{L}_{\times 2} + \mathcal{L}_{\times 4} + \mathcal{L}_{\times 8},\tag{1}Ltotal=L×2+L×4+L×8,(1)
其中每个尺度的损失使用l1l_1l1损失计算,该损失衡量重建输出I^\hat{I}I^与GT III之间的绝对差异:
Ll1=1N∑i=1N∣I(i)−I^(i)∣,(2)\mathcal{L}_{l_1} = \frac{1}{N} \sum_{i=1}^{N} |I{(i)} - \hat{I}{(i)}|,\tag{2}Ll1=N1i=1∑N∣I(i)−I^(i)∣,(2)
其中NNN是像素总数,I(i)I{(i)}I(i)和I^(i)\hat{I}{(i)}I^(i)分别表示GT图像和重建图像的像素值。然后使用三个卷积层将重建特征映射回图像空间。IR图像和RGB图像通过两个不同的分支输入。此外,使用双三次插值调整IR图像大小以匹配RGB图像。为了进一步提高性能,从插值后的IR图像到重建图像应用了跳跃连接。
3.2. 数据混合策略

一方面,PBVS 2025训练集较小,因此在其上训练的模型往往缺乏泛化能力。另一方面,与GTISR任务相关的现有数据集很少。为了解决这些问题,我们提出了一种数据混合策略。如图2所示,混合策略的工作原理如下:(1)从训练集中随机选择两张图像;(2)将一张图像放置在透明画布的中心,并在固定半径内随机粘贴另一张图像以确保大量重叠;(3)归一化所有粘贴图像的透明度系数,使其总和等于1;(4)裁剪画布以匹配原始图像大小。生成图像的混合区域描述为:
Y=τ⋅X1+(1−τ)⋅X2,(3)Y = \tau \cdot X_1 + (1 - \tau) \cdot X_2,\tag{3}Y=τ⋅X1+(1−τ)⋅X2,(3)
其中τ\tauτ是随机生成的透明度因子,X1X_1X1和X2X_2X2是从训练集中随机选择的图像。
3.3. 多尺度GT监督

原始特征重建过程涉及渐进式上采样过程。以×8\times 8×8尺度为例,分辨率从×2\times 2×2逐渐增加到×4\times 4×4,最后到×8\times 8×8。为了增强模型捕获高频细节的能力,我们在深层特征重建过程中引入了多尺度GT监督信号。如图3所示,我们通过对提供的×8\times 8×8 GT图像进行下采样,生成×2\times 2×2和×4\times 4×4分辨率的相应GT图像。在训练过程中,除了监督×8\times 8×8分辨率的最终重建输出外,我们还监督×2\times 2×2和×4\times 4×4分辨率的中间输出。这是通过计算中间输出与相应下采样GT图像之间的损失函数来实现的。它确保每个分辨率尺度的重建特征与GT紧密匹配。通过应用多尺度监督信号,模型可以学习不同分辨率尺度的特征。这种方法不仅确保了每个尺度重建输出与GT之间的一致性,还增强了模型在较低分辨率下捕获细粒度细节的能力。
4. 实验
4.1. 评估指标
峰值信噪比(PSNR)和结构相似性指数(SSIM)[11]是图像SR评估中常用的指标。PSNR是评估图像重建质量的广泛采用的指标。它定义为最大像素值LLL与均方误差(MSE)之间的比率:
PSNR=10⋅log10(L2MSE),(4)\text{PSNR} = 10 \cdot \log_{10} (\frac{L^2}{\text{MSE}}),\tag{4}PSNR=10⋅log10(MSEL2),(4)
其中MSE计算为:
MSE=1N∑i=1N(I(i)−I^(i))2,(5)\text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (I{(i)} - \hat{I}{(i)})^2,\tag{5}MSE=N1i=1∑N(I(i)−I^(i))2,(5)
其中I(i)I{(i)}I(i)和I^(i)\hat{I}{(i)}I^(i)表示GT图像和重建图像的像素值。NNN表示图像中的像素总数。SSIM通过评估亮度、对比度和结构相似性来衡量图像质量。它定义为:
SSIM(I,I^)=[Cl(I,I^)]α⋅[Cc(I,I^)]β⋅[Cs(I,I^)]γ,(6)\text{SSIM}(I, \hat{I}) = [C_l(I, \hat{I})]^\alpha \cdot [C_c(I, \hat{I})]^\beta \cdot [C_s(I, \hat{I})]^\gamma,\tag{6}SSIM(I,I^)=[Cl(I,I^)]α⋅[Cc(I,I^)]β⋅[Cs(I,I^)]γ,(6)
其中α\alphaα、β\betaβ和γ\gammaγ作为可调权重来平衡相对重要性。亮度、对比度和结构比较函数计算为:
Cl(I,I^)=2μIμI^+C1μI2+μI^2+C1,(7)C_l(I, \hat{I}) = \frac{2\mu_I \mu_{\hat{I}} + C_1}{\mu_I^2 + \mu_{\hat{I}}^2 + C_1},\tag{7}Cl(I,I^)=μI2+μI^2+C12μIμI^+C1,(7)
Cc(I,I^)=2σIσI^+C2σI2+σI^2+C2,(8)C_c(I, \hat{I}) = \frac{2\sigma_I \sigma_{\hat{I}} + C_2}{\sigma_I^2 + \sigma_{\hat{I}}^2 + C_2},\tag{8}Cc(I,I^)=σI2+σI^2+C22σIσI^+C2,(8)
Cs(I,I^)=σII^+C3σIσI^+C3,(9)C_s(I, \hat{I}) = \frac{\sigma_{I\hat{I}} + C_3}{\sigma_I \sigma_{\hat{I}} + C_3},\tag{9}Cs(I,I^)=σIσI^+C3σII^+C3,(9)
σII^=1N−1∑i=1N(I(i)−μI)(I^(i)−μI^),(10)\sigma_{I\hat{I}} = \frac{1}{N-1} \sum_{i=1}^{N} (I{(i)} - \mu_I)(\hat{I}{(i)} - \mu_{\hat{I}}),\tag{10}σII^=N−11i=1∑N(I(i)−μI)(I^(i)−μI^),(10)
其中μI\mu_IμI和μI^\mu_{\hat{I}}μI^表示图像的平均亮度,σI\sigma_IσI和σI^\sigma_{\hat{I}}σI^表示对比度的标准差,σII^\sigma_{I\hat{I}}σII^是图像之间的协方差。C1C_1C1、C2C_2C2和C3C_3C3是稳定性常数。
4.2. 训练细节
所提出的模型在由数据混合策略生成的超过10,000对图像上进行预训练。它使用l1l_1l1损失和Adam优化器进行训练。网络模块深度设置为L=2L=2L=2、M=3M=3M=3和P=3P=3P=3。补丁大小和批次大小设置为128×128128\times128128×128、16。学习率、嵌入维度和窗口大小分别设置为4×10−44\times10^{-4}4×10−4、60和8。预训练在两个NVIDIA A100 GPU(每个40.0 GB RAM)上进行。然后使用原始训练数据对模型进行微调,以进一步提高其性能。
4.3. 实验结果
我们提出的方法在PBVS 2025热成像图像超分辨率挑战赛Track 2中取得了具有竞争力的结果。具体而言,我们的方法在×8\times 8×8评估中获得了30.94的PSNR和最佳的0.9201 SSIM,在×16\times 16×16评估中获得了26.33的PSNR和最高的0.8593 SSIM。测试集上的一些可视化结果显示在图4中。通过这些图,我们可以看到所提出的方法成功地重建了热成像图像中的高频细节。这些复杂场景中的可视化结果证明了我们提出方法的鲁棒性。此外,我们比较了不同方法在验证集上的性能。定量结果显示在表2中。
4.4. 消融研究
为了研究骨干网络、混合策略和多尺度GT监督的效果,我们在本节进行了消融研究。对于基线,我们将模块数量设置为L=1L=1L=1、M=2M=2M=2和P=1P=1P=1。如表1所示,结果在PBVS 2025验证集上进行评估。结果表明,应用数据混合策略和GT多尺度监督可以带来性能提升。在小型骨干网络上,PSNR和SSIM分别提高了0.18和0.0056。同样,在大型骨干网络上,PSNR和SSIM分别提高了0.71和0.0264。
5. 结论
在本文中,我们提出了SwinPaste,一种基于Swin Transformer的RGB引导热成像图像SR模型。为了实现数据增强,我们在预训练阶段采用了数据混合策略。此外,我们引入了多尺度GT监督,使模型能够在特征重建阶段更有效地学习不同尺度的特征。定量结果表明,我们提出的方法在PBVS 2025数据集上取得了出色的性能。它在×8\times 8×8测试集上获得了30.94的PSNR和最佳的0.9201 SSIM,在×16\times 16×16测试集上获得了26.33的PSNR和最高的0.8593 SSIM,在PBVS 2025热成像图像超分辨率挑战赛Track 2中排名第二。
