当前位置: 首页 > news >正文

CVPR 2025|电子科大提出渐进聚焦Transformer:显著降低超分辨率计算开销

点击原文链接,查看更多图像超分辨率论文精读

一、导读

单张图像超分辨率(Single Image Super-Resolution, SR)旨在从低分辨率图像中恢复出高分辨率细节。

近年来,基于Transformer的模型因其能捕捉图像中的长距离依赖关系而表现优异,但其自注意力机制计算量大,且会引入大量与当前查询无关的特征,影响重建效果和效率。如何精准筛选出对当前查询真正重要的特征,避免无效计算,成为当前研究的难点。

为解决这一问题,本文提出了一种渐进聚焦Transformer(Progressive Focused Transformer, PFT),通过渐进聚焦注意力(Progressive Focused Attention, PFA) 机制,将网络中原本孤立的注意力图连接起来,逐步聚焦于最重要的图像块(token),从而在提升重建质量的同时显著降低计算开销。

实验表明,该方法在多个超分辨率基准测试中取得了领先性能。

二、论文基本信息

  • 论文标题:Progressive Focused Transformer for Single Image Super-Resolution

  • 作者与单位:Wei Long, Xingyu Zhou, Leheng Zhang, Shuhang Gu(电子科技大学)

  • 发表日期与来源:CVPR 2025

  • 代码地址:https://github.com/LabShuHangGU/PPT-SR

三、主要贡献与创新

  1. 提出渐进聚焦注意力(PFA),通过逐层继承注意力图,增强重要token的权重并抑制无关token。

  2. 引入稀疏矩阵乘法(SMM) 机制,在计算前过滤不相关特征,显著降低计算复杂度。

  3. 构建了PFT和PFT-light两种模型,分别适用于标准与轻量级超分辨率任务,在多个基准测试中取得最优性能。

  4. 设计了注意力聚焦比例(focus ratio) 控制机制,实现注意力逐步聚焦,提升模型效率与精度。

四、研究方法与原理

PFT的核心思路是:通过逐层传递注意力图,逐步聚焦于对当前查询最重要的图像块,避免无效计算,提升重建质量

PFT主要由多个渐进聚焦注意力块(PFA Block) 构成,每个块包含若干渐进聚焦注意力层(PFAL)。其关键机制如下:

  1. 渐进注意力跨层传递
    当前层的注意力图  由上一层的注意力图  与本层计算得到的注意力图  逐元素相乘并归一化得到:

    其中  表示行归一化操作。这样,持续重要的token会被增强,不重要的则被抑制。

  2. 渐进聚焦注意力(PFA)
    为了进一步减少计算,PFA在计算前使用稀疏索引矩阵  过滤不相关位置:

    其中  是稀疏矩阵乘法(SMM)操作,仅对  的位置计算注意力。最终注意力图通过:

    其中  是保留每行前  个最大值的稀疏化操作。

  3. 聚焦比例控制
    每层保留的注意力值数量  按  递减, 为聚焦比例(通常设为0.5),实现注意力逐步聚焦。

五、实验设计与结果分析

实验设置

  • 训练集:DF2K(DIV2K + Flickr2K)

  • 测试集:Set5, Set14, BSD100, Urban100, Manga109

  • 评估指标:PSNR, SSIM

  • 训练配置:AdamW优化器,初始学习率 ,批量大小32,输入块尺寸 

对比实验

【表1】展示了PFT在多个数据集上 、、 超分辨率任务中的PSNR/SSIM结果。PFT在多数情况下优于HAT、ATD等方法,且计算量(FLOPs)更低。

例如在  任务中,PFLOPs为1.26T,低于ATD的1.52T,而PSNR在Urban100上达到28.20dB,优于ATD的28.17dB。

  • 轻量级模型对比
    PFT-light在参数量仅792K的情况下,在Urban100上  任务中PSNR达到27.20dB,优于ATD-light的26.97dB,且计算量降低20.1%。

  • 可视化对比
    【图3】展示了PFA注意力分布更加集中,有效过滤无关区域;

【图4、6、7、8】显示PFT在恢复边缘和纹理细节方面优于其他方法。

(篇幅有限,如需查看完整论文请点击原文)

消融实验

【表3】验证了PFA相比传统自注意力和Top-注意力的优势,PSNR在Urban100上提升0.36dB,计算量降低27.69%。

【表4】显示聚焦比例  时效果最佳。

【表5】表明窗口尺寸从  增大到  可进一步提升性能。

六、论文结论与评价

总结
本文提出的PFT模型通过渐进聚焦注意力机制,有效提升了超分辨率任务中特征选择的准确性和计算效率。实验证明,PFT在多个基准测试中取得了最优性能,同时显著降低了计算开销。

评价
PFT在理论和实验上均表现出色,尤其在实际应用中具有较高的部署价值。其优点在于注意力聚焦机制稀疏计算策略的结合,使得模型在保持高性能的同时具备良好的效率。

然而,PFA机制对初始注意力图的依赖较强,若浅层注意力选择偏差较大,可能影响深层特征聚合。未来可进一步探索注意力初始化的鲁棒性,或将其拓展至视频超分辨率等时序任务中。

点击原文链接,查看更多图像超分辨率论文精读

http://www.dtcms.com/a/601415.html

相关文章:

  • CTFHub Web进阶-Linux:动态装载
  • Nginx域名与SSL证书配置完整流程
  • 美食网站要怎么做自己做相册的网站
  • 全国 网站备案 数量电子设计工程官网
  • 一、UDP以太网帧格式
  • 网络协议设计原则简介和资料推荐
  • 有哪些程序网站品牌和商标的区别
  • C语言编译器选择指南 | 初学者实用教程
  • 小智机器人MCP
  • 对于给不良网站发律师函如何做收银系统哪个软件好
  • 网站管理工作总结安阳县事业单位招聘2021
  • RK-Android11-修改系统的鼠标光标
  • vs2022 IDE扩展无法卸载/VSI 插件卸载及实例清理
  • 华为OD机试 双机位A卷 - 智能驾驶 (JAVA Python C++ JS GO)
  • 广州网站制作实力乐云seo怎么提高网站的流量
  • 开源工具 yt-dlp 超简易上手版
  • 郑州网站优化外包顾问上海网站建设 分类广告
  • SSM基于WEB的教学质量评价系统的设计与实现p9ak6(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • PCB常用规则
  • Node.js 集成百度语音
  • 求一个网站开发接项目的平台做网站的外包需要分享客户信息
  • 怎么用PS做网站横幅wordpress 抽奖
  • 【开题答辩全过程】以 基于Vue.js和Node.js的在线旅游平网站的设计和实现为例,包含答辩的问题和答案
  • MySQL快速入门——用户管理
  • 中咨城建设计南京网站网站建设南昌
  • 大连网站制作流程在哪里可以免费自学seo课程
  • [智能体设计模式]第3章 并行化
  • Prisma 原生 SQL 多表联查完整指南
  • 哪个网站原创文章旅游集团网站建设
  • AI搜索不提你的品牌?从GEO诊断开始