当前位置: 首页 > news >正文

【超分论文精读】——LightBSR(ICCV2025)

原文:[2506.22710] LightBSR: Towards Lightweight Blind Super-Resolution via Discriminative Implicit Degradation Representation Learning

开源代码:https://github.com/MJ-NCEPU/LightBSR

摘要

基于隐式退化估计的盲超分辨率(IDE-BSR)依赖于提取低分辨率(LR)图像的隐式退化表示(IDR),并将其适配到LR图像特征中,以指导高分辨率(HR)细节的恢复。尽管IDE-BSR在处理噪声干扰和复杂退化方面表现出潜力,但现有方法忽略了IDR判别性对BSR的重要性,反而过度复杂化适配过程以提升效果,导致模型参数和计算量显著增加。本文聚焦于IDR判别性的优化,提出了一种新颖且轻量级的BSR模型,称为LightBSR。具体而言,我们采用基于知识蒸馏的学习框架。首先,在教师阶段引入一种精心设计的退化先验约束对比学习技术,使模型更专注于区分不同类型的退化。然后,我们利用特征对齐技术,将教师模型获得的退化相关知识迁移到学生模型中,以用于实际推理。大量实验验证了基于IDR判别性驱动的BSR模型设计的有效性。所提出的LightBSR在多种盲超分辨率任务中均能以极低的复杂度实现卓越的性能。

1.Introduction

盲超分辨率(Blind Super-Resolution,BSR)的目标是从具有未知且复杂退化的低分辨率(LR)图像中恢复出细节丰富的高分辨率(HR)图像。BSR方法的关键在于准确估计LR图像的退化信息,并将其有效地嵌入到超分辨率(SR)模块中,以指导图像的上采样过程。作为一种更实用的LR图像恢复技术,BSR受到了广泛关注,并发展出两个主要研究方向:基于显式退化估计的BSR(EDE-BSR)和基于隐式退化估计的BSR(IDE-BSR)。

EDE-BSR范式要求在退化参数(例如模糊核、噪声水平)与估计器之间建立显式的映射关系。只有当LR图像的退化类型落入预定义的退化范围内时,EDE-BSR方法才能获得令人满意的图像恢复效果。然而,真实场景中的退化类型几乎是无穷无尽的,提前标注所有可能的退化类型是不现实的。此外,精确的模糊核估计通常需要更多的参数和迭代次数,这显著增加了此类方法的模型复杂度和时间开销。

IDE-BSR范式则将退化信息的估计问题转化为一种与退化相关的表示学习问题。其核心目标是构建一个能够泛化到各种退化域(包括训练阶段未见过的退化类型)的潜在表示空间,并有效地将提取的隐式退化表示(Implicit Degradation Representation,IDR)适配到LR图像特征中,以指导HR图像的恢复。得益于对复杂退化模式内在特征更全面的理解以及更简单的训练过程,IDE-BSR范式在存在噪声干扰和复杂退化组合的真实场景中展现出了巨大的潜力。

以往的研究探索了各种表示学习技术在IDE-BSR任务中的应用,例如对比学习、元学习、知识蒸馏和扩散模型等。尽管取得了一些进展,但这些方法并未特别强调所学IDR空间的判别能力。如图1中的t-SNE可视化所示,即使是目前最新的方法也难以有效区分不同的退化类型。这意味着这些模型并未准确理解不同的退化模式,提取的IDR中包含了与退化无关的噪声。因此,它们不得不增加适配过程的复杂度,以解决噪声干扰问题,从而提升超分辨率效果。例如,尽管CDFormerS和DSAT在DIV2K验证集上取得了较高的平均PSNR值,但代价是参数数量和计算成本相比KDSR增加了两倍以上。然而,模型复杂度的不断增加无疑阻碍了BSR技术的实用性。这一现象引发了一个重要问题:是否可以通过增强IDR的判别能力来提升超分辨率效果,从而绕过复杂的适配过程,实现轻量化的BSR模型?

基于上述观察与思考,本文尝试聚焦于增强IDR的判别性,而非堆叠复杂的适配网络,旨在形成一种新的强大且参数高效的BSR模型设计。我们提出的方法称为LightBSR。其整体架构如图2所示,核心模块包括IDR估计模块(IDR-EM)和IDR适配模块(IDR-AM)。前者由IDR估计器和IDR转换器组成,用于从输入LR图像中提取通道维度和空间维度的IDR;后者由一系列层次化的适配组件构成,用于有效地将IDR适配到LR图像特征中。

在模型学习方面,如图3所示,我们遵循知识蒸馏学习框架,该框架在轻量化方面具有天然优势,使我们能够在教师阶段进行非常复杂的隐式退化建模,而不会影响学生阶段的模型复杂度和推理效率。在教师训练阶段,我们引入了一种精心设计的退化先验约束对比学习技术,该技术使用特定的退化参数作为退化参考先验(Degradation Reference Prior,DRP),以增强教师模型对LR图像中判别性退化相关信息的学习。在学生训练阶段,我们利用基于特征对齐的知识蒸馏技术,将教师模型获得的退化相关知识迁移到一个仅输入LR图像的简化学生模型中,以满足任务需求。

在合成图像和真实图像上的大量实验验证了我们提出的新型BSR模型设计的有效性。得益于IDR的高判别性,即使使用复杂度较低的退化适配模块,也能轻松构建从LR到HR的高质量映射,并泛化到任意退化场景。与现有先进的EDE-BSR和IDE-BSR方法在相同设置下相比,我们的方法在各种盲超分辨率任务中均能以极少的参数和计算成本实现卓越的性能。

2.Related Work

BSR旨在通过一个可学习的估计器而非手动设置的参数来从低分辨率(LR)图像中提取退化信息,以指导重建。

  • EDE-BSR(显式退化估计的盲超分辨率):早期方法会显式地估计退化。IKC[7]利用生成的超分辨率(SR)结果来迭代优化估计器。DAN[13]采用双分支设计,联合预测模糊核和超分辨率图像。DCLS[25]引入约束最小二乘滤波来生成去模糊特征。这些方法通常涉及计算成本高昂的迭代估计过程。
  • IDEBSR(隐式退化估计的盲超分辨率):近期的研究通过学习与低分辨率特征融合的潜在表示来隐式地建模退化。DASR[32]首次将对比学习[8]应用于区分不同的退化类型。IDMBSR[44]将核宽度和噪声水平作为弱监督信息。MRDA[36]在多阶段框架中采用元学习[6]。KDSR[37]引入知识蒸馏[1, 10, 14],将从高分辨率(HR)监督的教师模型中获取的知识迁移到学生模型,用于退化估计。CDFormer[22]和DSAT[21]通过堆叠大型Transformer块[5, 19]来提升性能,但其复杂性限制了实际应用。

我们的目标:不采用增大模型的方式,而是通过结合对比学习和蒸馏来增强IDR空间的判别能力,从而实现轻量级且高效的BSR。更多分析详见补充材料。

3.Method

3.1Architecture Overview

所提出的LightBSR的架构如图2所示,它主要由低分辨率(LR)特征提取器(一个3×3卷积层)、IDR估计模块(IDR-EM)、IDR适配模块(IDR-AM)以及上采样器[29]组成。低分辨率图像首先被同时输入到低级LR图像特征提取器和IDR-EM中。其次,输出结果被输入到IDR-AM中进行一系列调制与融合操作。然后,经过适配的结果被输入到上采样器中,以生成超分辨率(SR)图像。更多设计细节如下。

3.1.1. IDR Estimation Module (IDR-EM)

IDR-EM由IDR估计器和IDR转换器组成。前者用于提取原始IDR,其结构是一个六层卷积网络,与KDSR[37]类似,但每层的通道数减少了一半,以减少参数数量。后者包含一个空间转换分支(由像素重排层和卷积层组成)和一个通道转换分支(由全局平均池化(GAP)算子和全连接(FC)层组成),分别用于基于原始IDR进一步生成空间维度IDR和通道维度IDR。

3.1.2. IDR Adaptation Module (IDR-AM)

IDR适配模块(IDR-AM)采用分层适配过程,由一系列IDR校正块、IDR适配块和IDR适配组组成。具体细节如下:

1) IDR校正块(IDR-CB):IDR-CB旨在进一步优化通道维度IDR(RC)和空间维度IDR(RS)。通道级校正包含两个带GELU[9]激活函数的全连接(FC)层和一个残差连接,而空间级校正包含两个带GELU激活函数的卷积层和一个残差连接。第4.2节表明,该模块能在一定程度上增强适配模块对IDR估计误差的鲁棒性。

2) IDR适配块(IDR-AB):IDR-AB是基础适配单元。如图2所示,IDR-AB以低分辨率特征f_LR和校正后的IDR为输入,从通道和空间两个角度对IDR进行调制,并将IDR整合到低分辨率特征中。由于其设计较为复杂,我们将在3.2.1节结合具体计算过程详细阐述IDR-AB的内部结构。

3) IDR适配组(IDR-AG):IDR-AG由8个IDR-AB组成,其后接一个ConvNeXt块[23]和一个3×3卷积层,用于进一步的特征融合。此外,在IDR-AG的输入和输出之间添加了一条残差连接,以恢复低级细节。

最后,IDR-AM由8个IDR-AG和一个3×3卷积层构成,同时也采用了一条残差连接,以保留原始图像的细节和语义信息。

3.2. KD-based Model Learning

如图3所示,所提出的LightBSR的训练分为两个阶段:在教师模型训练阶段,将对比学习(CL)和退化参考先验(DRP)引入训练过程,以增强所学IDR潜在空间的判别能力;在学生模型训练阶段,通过特征对齐将教师模型学到的退化知识迁移到学生模型中。

3.2.1. Teacher Training  

基于对比学习(CL)的教师模型训练框架主要由一个退化参考先验(DRP)生成器、一个主分支、一个动量分支和一个负样本队列Q组成。每个分支都包含一个IDR估计器和一个投影器(一个两层全连接网络)。训练分为两个阶段,第一阶段仅通过更新两个对比学习分支来预训练IDR估计器,第二阶段则对整个模型参数进行微调。需要注意的是,在教师模型训练过程中,IDR估计器与IDR转换器是相互独立的。

1)数据准备

给定一批包含 B 张低分辨率(LR)图像的数据,我们对每张 LR 图像随机裁剪出 D 个图像块(每个图像块的尺寸为 3 × H × W),从而构成 B 个正样本集合。为了生成退化参考先验(Degradation Reference Prior, DRP),我们采用了维度扩展策略(dimensionality stretching strategy)[42]。

具体而言,首先,将大小为 k × k 的模糊核进行向量化处理,并通过主成分分析(PCA)投影到一个 t 维空间中,得到一个 t × 1 的向量。接着,将噪声水平值 σ 复制 3 次,并与模糊核向量进行拼接,形成一个 (t + 3) × 1 的向量。然后,将该向量进行维度扩展,以匹配 LR 图像块的尺寸,从而得到 DRP 的张量表示 F_{drp}\in \mathbb{R}^{(t+3)\times H\times W}

最后,教师模型训练的输入由每个图像块与其对应的 F_{drp}拼接而成,定义为:I_{LRd} \in \mathbb{R}^{B \times D \times (t+6) \times H \times W}

2)IDR估计器的预训练

第一阶段可以看作是对IDR估计器(IDR-Estimator)的预训练。具体而言,输入张量 I_{LRd} 同时被送入主分支(principal branch)和动量分支(momentum branch),分别生成特征表示 P 和 M,它们的维度均为\mathbb{R}^{B\times D\times 128}。随后,基于特征 M、P 和 Q 计算对比损失(contrastive loss),具体计算方式如下:

其中 τ 表示温度系数,N 是 Q 的长度。对于 momentum 分支,使用 momentum update 策略更新参数:

其中 \theta ^{M} 和  \theta ^{P}是动量和主分支的参数,α ∈ [0, 1] 是动量系数。

3)整体模型的微调
第二阶段在第一阶段的基础上扩大了参数训练的范围。具体来说,在获得主分支中IDR估计器(IDR-estimator)的输出之后,该输出被进一步输入到IDR转换器(IDR-converter)中,以在空间域和通道域进行变换,分别输出空间维度的隐式退化表示(IDR)R_{T}^{s}\in \mathbb{R}^{8\times H\times W}和通道维度的IDR R_{T}^{c}\in \mathbb{R}^{48} 这两个IDR与LR图像特征一起被输入到IDR适配模块(IDR-AM)和上采样模块(Upscaler)中,以生成高分辨率(HR)图像。使用L1损失函数来衡量重建误差,具体如下:

其中,I_{SR}表示盲超分辨率(BSR)网络的输出,I_{HR}表示与输入低分辨率(LR)图像对应的高分辨率(HR)版本。在训练教师网络的第二阶段,总损失定义为超分辨率损失(LSR)与对比学习损失(LCL)之和。

4) IDR 适配

如第3.1节所述,IDR-AM中的适配过程是顺序的,由一系列IDR-AG和一个Conv层组成,其中每个IDR-AG由一系列IDR-AB和两个Conv块组成。如图2所示,以IDR-EM的输出IDR和LR特征作为输入,IDR-CB首先优化IDR以··获得\widehat{R_{C}}\widehat{R_{S}},并将它们发送到相应的IDR-AG和下一个IDR-CB。在IDR-AG中,IDR-AB接收优化的IDR和LR特征作为输入。IDR-AB首先将输入LR特征中的f_{LR}^{in}沿通道维度按1:3的比例分成两部分,以充分利用不同通道之间的冗余并降低计算复杂度。对于空间调制,将1/4的f_{LR}^{in}\widehat{R_{S}}沿通道维度连接,然后通过两个3×3 Conv层和一个Sigmoid函数进行调制。接下来,将调制后的空间IDR与原始1/4的f_{LR}^{in}相乘,然后通过一个5×5 Conv层进行进一步融合,以获得空间退适配的LR图像特征f_{LR}^{S}。对于通道调制,首先对剩余的3/4的f_{LR}^{in}进行GAP操作,然后将池化结果与\widehat{R_{C}}沿通道维度连接,通过两个FC层和一个Sigmoid函数进行调制。接下来,将调制后的通道IDR与原始3/4的f_{LR}^{in}相乘,以获得通道退适配的LR特征f_{LR}^{C}。然后将f_{LR}^{S}f_{LR}^{C}连接起来,并通过ConvNeXt块进行信息互补处理。最后,应用残差链接将原始f_{LR}^{in}集成到处理结果中,以增强图像细节,从而得到当前IDR-AB的最终输出\widehat{f}_{LR}^{in}。在一系列层次适配之后,IDR-AM中获得充分集成退化信息的LR图像特征,记为f_{LR}^{out},这将用作Upscaler的输入。

3.2.2. 知识迁移

学生网络主要由一个IDR估计器(IDR-ES)和一个IDR转换器(IDR-CS)组成,每个组件的结构与教师网络中的相同。在输入方面,学生网络仅将LR图像作为输入,以满足推理要求。由IDR-CS输出的空间IDR和通道IDR分别表示为RSs和RSc。在对教师网络进行训练后,将主分支的IDR估计器和IDR转换器导出作为教师,分别定义为IDR-ET和IDR-CT,然后使用蒸馏学习技术将所学到的知识迁移到学生网络。具体来说,知识蒸馏是通过对齐教师和学生转换器之间的输出来实现的,训练也分为两个阶段,第一阶段仅更新IDR-ES和IDR-CS,第二阶段优化整个模型的参数。在第一阶段,对于空间域蒸馏,使用L2损失函数进行从RTs到RSs的像素级知识迁移,具体可以表示为:

对于通道域表示R_{T_{c}}R_{S_{c}},采用 Kullback-Leibler (KL) 散度损失来匹配它们的分布,同时使用 L1 损失来最小化它们之间的绝对差异,具体如下:

其中 C 是通道数,R_{T_{c}}^{norm}R_{S_{c}}^{norm}分别是 R_{T_{c}}R_{S_{c}} 经过 softmax 归一化后的输出。知识蒸馏的总损失为:

其中\beta表示平衡因子。在第二阶段,R_{S_{c}}R_{S_{s}}被进一步输入到 IDR-AM 和 Upscaler 中进行超分辨率重建,与教师网络的训练保持一致。将L_{SR}L_{DL}的和定义为训练学生网络第二阶段的损失。

4. Experiments

4.1. Experimental Setup

数据集准备。对于训练,我们使用了DIV2K数据集中的800张图像和Flickr2K数据集中的2650张图像,与先前的工作[32, 37]保持一致。对于评估,我们选择了四个标准的基准数据集:Set5 [4]、Set14 [40]、B100 [26]和Urban100 [12]。训练所需的LR-HR样本对遵循经典的退化模型:

其中I_{HR}是原始的高分辨率图像,I_{LR}是退化的低分辨率图像,\bigotimes表示卷积操作,k表示模糊核,↓s​ 表示带有缩放因子s的双三次下采样,n表示加性高斯白噪声。在实验中,采用了两种退化设置:

设置1:仅包含各向同性的高斯模糊核。核大小固定为21×21,核宽度的范围设置为[0.2, 4.0],用于×4超分辨率。

设置2:考虑了各向异性的高斯模糊核和高斯白噪声,用于×4超分辨率。各向异性高斯模糊核的特征是具有高斯概率密度函数 N(0, \Sigma),其中协方差矩阵\Sigma 由两个特征值\lambda_1, \lambda_2 \sim U(0.2, 4) 和一个旋转角度 \theta \sim U(0, \pi)确定。核大小固定为21×21,高斯白噪声的范围设置为[0, 25]。

实现细节。对于预处理,高分辨率图像通过随机旋转和翻转进行增强,低分辨率图像块的大小设置为64×64。对于训练,批量大小B 设置为64,正样本数量 D 设置为4。在IDR建模过程中,PCA维度 t设置为15,温度系数\tau设置为0.07,动量系数\alpha 设置为0.999,LDL中的平衡系数\beta 设置为0.1。对于教师和学生网络的训练,在第一阶段,学习率设置为2e-4,训练100个周期。在第二阶段,使用余弦退火策略在600个周期内将学习率从2e-4逐渐降低到1e-6。训练过程中使用Adam优化器。

4.2. 消融研究

我们对所提出方法在退化设置1下各组件的影响进行了详细分析。在补充材料中提供了在退化设置2下的额外实验结果。

4.2.1. 训练的核心组件

1)DRP和CL的效果。DRP和CL用于增强IDR的可区分性。消融结果如表1所示。以不使用任何DRP或CL的朴素模型T1作为基线,添加DRP(T2)或引入CL(T3)均能有效提高性能,在四个基准数据集上的平均峰值信噪比(PSNR)分别比T1高出0.22 dB和0.09 dB。此外,将DRP和CL结合,即T4(我们的方法),可以进一步提高性能,证明了这两个组件的有效性和兼容性。

2)正样本数量的影响。为了验证正样本数量的影响,我们逐渐将D的值从2增加到8,结果如图4所示。当D从2增加到4时,在各个基准数据集上的性能显著提高,表明更多的正样本可以提供更多有益的参考先验。然而,当D超过4时,性能达到饱和甚至下降,可能是由于过多的冗余信息损害了估计器对退化分布变化的鲁棒性[28]。

4.2.2. IDR-AM的核心组件

我们对IDR-AM的核心组件,即IDR-AB和IDR-CB,进行了详细的消融研究,消融结果如表2所示。

1)IDR-AB的效果。IDR-AB中有两个退化调制分支,分别对应通道和空间视角。与没有任何调制的基线(M1)相比,仅使用空间域调制(M2)或通道域调制(M3)均能提高SR性能,平均PSNR分别提高了1.67 dB和1.7 dB,验证了从两个视角进行调制的必要性。将两个分支结合,即M4(我们的方法),进一步提高了PSNR,显示出两者的互补性。

2)IDR-CB的效果。与M4(我们的方法)相比,不包含IDR-CB的变体M5的平均PSNR降低了0.06 dB,初步显示了该组件的有效性。为了进一步验证IDR-CB的效果,我们在IDR-Estimator的输出中添加了0到1之间的随机值,模拟错误的IDR,结果如表2底部所示。可以看出,当接收到错误的IDR时,M5-(不包含IDR-CB)的平均PSNR比M4-(包含IDR-CB)低0.09 dB,表明IDR-CB可以在一定程度上提高SR网络对错误退化估计的鲁棒性。

4.3. 与以往方法的比较

我们在两种退化设置下将我们的方法与以下BSR方法进行了比较:IKC [7]、DAN [13]、DCLS [25]、DASR [32]、IDMBSR [44]、MRDA [36]、KDSR [37]、DSAT [21]和CDFormerS [22]。在这些方法中,IKC [7]、DAN [13]和DCLS [25]遵循EDEBSR范式,而其他方法遵循IDE-BSR范式。在补充材料中提供了分布外(OOD)退化评估。

4.3.1. 在退化设置1中的实验

IDR的质量。我们应用四种不同的模糊核宽度来生成B100基准数据集[26]的LR图像,将它们输入到DASR [32]、MRDA [36]、KDSR [37]、DSAT [21]、CDFormerS [22]和LightBSR的退化估计器中。每种方法输出的IDR的t-SNE图如图5(a)所示。我们的方法实现了相同退化的更好聚类和不同退化的更好分离,显示出我们的方法在区分性隐式退化估计方面的优越性。

定量评估。我们使用三种不同的模糊核宽度{1.2, 2.4, 3.6}来评估各种方法在四个经典基准数据集上的SR性能。表3中的比较显示:(1)与最好的基于EDE的BSR方法[25]相比,我们的方法在12种退化条件中的8种条件下实现了更优或相当的性能,同时将参数数量减少了78%,计算量减少了59%,显示出基于IDE的BSR范式的巨大潜力。(2)与现有的IDEBSR方法相比,LightBSR以更少的参数和计算实现了SOTA性能,显示出我们方法的优越性。例如,与CDFormerS [22]相比,我们的方法基于CNN架构,仅使用了CDFormerS 26%的参数和32%的计算成本就取得了更优的结果,证明了CNN在BSR任务中仍然具有很强的竞争力。

定性评估。不同方法在退化设置1下的SR结果如图6所示。我们的方法更全面地恢复了图像的整体结构,并更清晰、更完整地恢复了复杂的建筑纹理细节。这表明IDR的区分性对于图像恢复至关重要。

4.3.2. 退化设置2实验

IDR 质量  :使用 4 种各向异性模糊核并将噪声等级设为 4,为 B100 基准 [26] 生成 LR 图像。IDR 生成与 t-SNE 可视化流程同退化设置 1,结果见图 5(b)。可以看出,LightBSR 依然实现了最具区分性的 IDR 建模。  

定量评估  
选取 9 种各向异性模糊核与 2 种噪声等级,在 B100 基准 [26] 上评估各方法,结果见表 4。显然,LightBSR 在所有模糊核与噪声组合下均达到 SOTA。与基于 EDE 的 DCLS [25] 相比,LightBSR 在所有退化条件下的平均 PSNR 高出 0.97 dB,进一步验证了 IDE 策略在含噪复杂 BSR 任务中的优势。与现有 IDE 方法相比,我们的方法在参数更少的情况下仍提升性能。例如,LightBSR 在所有模糊核与噪声组合下的平均 PSNR 比 CDFormerS [22] 高 0.05 dB,而参数量仅为后者的 26%。  

定性评估  
图 7 展示了退化设置 2 下各方法的 SR 结果。即使在严重退化条件下,LightBSR 仍能清晰、准确地恢复丰富细节;而 DASR [32]、MRDA [36]、KDSR [37] 和 CDFormerS [22] 生成的 SR 图像要么严重模糊,要么难以恢复复杂纹理细节。  

4.3.3. 真实退化场景实验  

使用 RealWorld38 [20] 中的 “pattern” 图像评估所有方法对复杂未知真实退化的泛化能力。由于没有对应 HR 图像,我们直接使用退化设置 2 训练的各模型进行定性比较。如图 8 所示,即便高频细节缺失,我们的方法仍能清晰恢复线条纹理。更多对比见补充材料。  

5. 结论  

本工作阐明了区分性 IDR 对 BSR 任务的重要性,并提出了一种轻量级 BSR 模型设计新思路。LightBSR 采用基于知识蒸馏的训练框架:教师阶段利用精心设计的退化先验约束对比学习,增强所学 IDR 潜空间的区分性;学生阶段通过特征对齐技术,将所学退化相关知识迁移到结构简单的学生网络,便于实际推理。大量实验验证了我们方法的有效性,在极少的参数量和计算量下取得优异的定量与定性结果。此外,本工作也表明 CNN 架构在盲 SR 任务中仍具巨大潜力。  

6.梳理总结

(1)主要创新点

①判别性隐式退化表示学习

  • 传统IDE-BSR方法忽略了IDR的判别性,导致需要复杂的适应模块来补偿噪声干扰。本文提出通过对比学习(Contrastive Learning, CL)和退化参考先验(Degradation Reference Prior, DRP)增强IDR的判别性,使模型能更好区分不同退化类型。
  • 实验表明,IDR的判别性提升能直接改善超分效果,减少对复杂适应模块的依赖。

②轻量化设计

       采用知识蒸馏(Knowledge Distillation, KD)框架,分为教师(Teacher)和学生(Student)两阶段:

  • 教师阶段:使用复杂的结构(如DRP和CL)学习高判别性的IDR。
  • 学生阶段:通过特征对齐技术将教师的知识迁移到轻量化的学生模型,仅需输入LR图像即可推理。

        最终模型参数和计算量显著减少(如参数量仅为CDFormer的26%),同时保持高性能。

③模块化架构

  • IDR估计模块(IDR-EM):包含IDR估计器和转换器,生成空间和通道维度的IDR。
  • IDR适应模块(IDR-AM):通过分层结构(IDR-AB和IDR-CB)将IDR适配到LR特征中,结构简单但高效。

(2)整体流程

①输入处理

  • LR图像同时输入LR特征提取器(3×3卷积)和IDR-EM。

②IDR估计

IDR-EM:

  • IDR估计器:6层卷积网络(参数量减半)提取原始IDR。
  • IDR转换器:生成空间和通道维度的IDR(通过像素重排和全局平均池化)。

③IDR适应与超分重建

IDR-AM:

  • IDR校正块(IDR-CB):优化IDR的鲁棒性。
  • IDR适应块(IDR-AB):通过空间和通道调制将IDR融合到LR特征中。
  • IDR适应组(IDR-AG):8个IDR-AB串联,保留低频细节。

上采样器:最终生成SR图像。

④两阶段训练

教师训练:

  • 使用DRP和对比学习增强IDR判别性。
  • 损失函数:对比损失(CL)和重建损失(L1)。

学生训练:

  • 通过特征对齐(L2、KL散度、L1损失)迁移教师知识。
  • 最终模型仅需LR图像输入,轻量化且高效。

(3)超分框架

  1. IDR-EM:提取退化表示(空间+通道)。
  2. IDR-AM:分层调制LR特征(空间/通道分支互补)。
  3. Upscaler:重建HR图像。

(4)优势与效果

  • 性能:在合成和真实数据上均达到SOTA,PSNR优于CDFormer等复杂模型(如Urban100提升0.11 dB)。
  • 轻量化:参数量仅3.1M(CDFormer为11.9M),计算量减少68%。
  • 泛化性:对未知退化和噪声干扰鲁棒(见图5的t-SNE可视化)。

(5)总结
本文通过增强IDR判别性蒸馏框架,实现了轻量化BSR模型设计,核心思想是:

  • 教师模型复杂但判别性强,学习退化表示;
  • 学生模型轻量化,继承教师知识;
  • 模块化适应简化流程,降低计算成本。

增强IDR判别性

增强判别性的关键手段就是:使用对比学习框架(MoCo)训练 IDR 编码器

增强路径:

增强方式目的模块
MoCo 对比学习正负样本拉开退化距离MoCo(Encoder)
对比损失约束 Encoder提高表示空间结构性contrast_loss
Encoder 输出 fea(空间) + out(向量)同时用于重建 + 对比判别Encoder
使用 map 提供多源退化先验丰富退化表达输入为 x + map

功能上看: “增强”主要体现在两点:

(1)结构上:加入对比学习

  • 使用 MoCo 框架训练 Encoder

  • 同退化样本 → 表示靠近(正对)

  • 异退化样本 → 表示远离(负对)

📌 从“无监督学习退化” → “结构化学习退化空间”

(2)任务上:让 IDR 对下游 SR 有效

  • 退化表示不仅判别性强

  • 还能被 LightBSR 用于调制空间 + 通道特征

  • 提升超分恢复质量,任务引导更强

这一设计为实际应用中的盲超分提供了高效解决方案。


文章转载自:
http://asphaltic.wanhuigw.com
http://bnd.wanhuigw.com
http://cacumen.wanhuigw.com
http://carlot.wanhuigw.com
http://azilian.wanhuigw.com
http://bipolarize.wanhuigw.com
http://aforementioned.wanhuigw.com
http://bagpipe.wanhuigw.com
http://algicide.wanhuigw.com
http://baotou.wanhuigw.com
http://angiography.wanhuigw.com
http://analectic.wanhuigw.com
http://chandler.wanhuigw.com
http://baste.wanhuigw.com
http://adminiculate.wanhuigw.com
http://airspeed.wanhuigw.com
http://blunge.wanhuigw.com
http://antisexist.wanhuigw.com
http://canonry.wanhuigw.com
http://chemical.wanhuigw.com
http://altissimo.wanhuigw.com
http://catface.wanhuigw.com
http://cancerian.wanhuigw.com
http://acorn.wanhuigw.com
http://briareus.wanhuigw.com
http://caffre.wanhuigw.com
http://carbonatation.wanhuigw.com
http://bodywork.wanhuigw.com
http://astyanax.wanhuigw.com
http://beaverette.wanhuigw.com
http://www.dtcms.com/a/280818.html

相关文章:

  • 梳理Bean的创建流程
  • mongoDB的CRUD
  • Visual Studio 现已支持新的、更简洁的解决方案文件(slnx)格式
  • 云服务器如何管理数据库(MySQL/MongoDB)?
  • 基于STM32G431无刷电机驱动FOC软硬件学习
  • iOS高级开发工程师面试——常见第三方框架架构设计
  • C++学习笔记五
  • Gemma-3n-E4B-it本地部署教程:谷歌开源轻量级多模态大模型,碾压 17B 级同类模型!
  • SHAP 值的数值尺度
  • Conda 核心命令快速查阅表
  • 技术演进中的开发沉思-35 MFC系列:消息映射与命令
  • Keepalived双机热备
  • 网络安全职业指南:探索网络安全领域的各种角色
  • 003大模型基础知识
  • React 实现老虎机滚动动画效果实例
  • AutojsPro 9.3.11 简单hook
  • Pixel Reasoner:通过好奇心驱动的强化学习激励像素空间推理
  • 简单2步配置CadenceSkill开发编辑器,支持关键字高亮
  • [AI-video] Web UI | Streamlit(py to web) | 应用配置config.toml
  • (李宏毅)deep learning(五)--learning rate
  • 从底层技术到产业落地:优秘企业智脑的 AI 革命路径解析
  • NAT的核心原理以及配置
  • CCF-GESP 等级考试 2025年6月认证Python四级真题解析
  • RDMA over RoCE V2设计2:系统框架设计考虑
  • Datawhale AI夏令营 机器学习2.1
  • 详解低速容错CAN(附与高速CAN对比表)
  • RabbitMQ第三章(企业级MQ应用方案)
  • 基于uniapp+vue3封装的一个日期选择组件
  • 【图像处理基石】什么是解析力?
  • A*算法详解