当前位置：首页 > news >正文

[2025CVPR-图象分类方向]CATANet：用于轻量级图像超分辨率的高效内容感知标记聚合

news 2025/7/26 7:27:44

1. 研究背景与动机

问题：Transformer在图像超分辨率（SR）中计算复杂度随空间分辨率呈二次增长，现有方法（如局部窗口、轴向条纹）因内容无关性无法有效捕获长距离依赖。
现有局限：
- SPIN等聚类方法依赖稀疏聚类中心传播信息，导致近似粗糙且推理速度慢（需迭代更新中心）。
- ATD引入字典学习但计算负担大，不适合轻量化场景。
解决方案：提出 CATANet，通过内容感知令牌聚合实现高效长距离依赖建模，兼顾性能与速度。

2. 方法设计

2.1 整体架构

三阶段流程：

浅层特征提取：3×3卷积映射LR图像至高维特征。
深层特征提取：K个残差组（RG），每个RG包含：
- 令牌聚合块（TAB）：核心创新模块。
- 局部区域自注意力（LRSA）：增强局部细节。
- 3×3卷积：细化特征并学习位置嵌入。
图像重建：全局残差信息 + LR上采样 → 输出HR图像。

2.2 令牌聚合块（TAB）

四大组件：
- 内容感知令牌聚合（CATA）：
  - 共享全局令牌中心，仅训练阶段通过指数移动平均（EMA）更新（λ=0.999）。
  - 按相似度将令牌分组（图4），解决SPIN的推理延迟问题。
  - 子组划分（S）：平衡并行效率（图3b），提升速度2倍（表6）。
- 组内自注意力（IASA）：
  - 组内令牌交互，允许关注相邻子组（图3c），提升PSNR 0.02-0.05dB（表1）。
- 组间交叉注意力（IRCA）：
  - 子组与令牌中心交叉注意力，增强全局交互（M≪N控制计算量）。
- 1×1卷积：融合IASA与IRCA输出，加法融合优于拼接（表5）。

2.3 局部区域自注意力（LRSA）

采用重叠块机制（参考HPINet），学习局部细节特征。
配合ConvFFN进行通道维度特征交互。

3. 实验与分析

3.1 性能对比

数据集：DIV2K训练，Set5/Set14/B100/Urban100/Manga109测试。
结果（表2）：
- 轻量化优势：参数量（535K）低于SPIN（555K），PSNR显著提升（×4最高+0.33dB）。
- 视觉对比：恢复边缘更清晰，伪影更少（图6）。
- 速度：推理速度达SPIN的5倍，比SwinIR快2倍。

3.2 消融实验

IASA+IRCA必要性：移除后PSNR下降0.15–0.22dB（表3）。
CATA设计：优于Clustered Attention/NLSA等（表4）。
子组划分：推理速度从188ms→86ms（表6）。

3.3 可视化分析

LAM热力图：TAB捕获更长距离依赖（图5）。
令牌分组：内容相似区域被精准聚合。

4. 结论与贡献

核心贡献：
1. CATANet：首个结合内容感知令牌聚合与注意力的轻量化SR网络。
2. CATA模块：仅训练阶段更新令牌中心，消除推理延迟。
3. 双注意力机制：IASA实现细粒度长程交互，IRCA强化全局信息。
性能突破：PSNR最大提升0.60dB（自集成），推理速度翻倍，适用于移动设备。

论文地址：https://arxiv.org/pdf/2503.06896v1

http://www.dtcms.com/a/297830.html

相关文章：

Git常用命令赏析

Spring Boot 优雅实现多租户架构！

谁将统治AI游戏时代？腾讯、网易、米哈游技术暗战

基于Android的2048休闲益智游戏App

上位机程序开发基础介绍

大型微服务项目：听书——11 Redisson分布式布隆过滤器+Redisson分布式锁改造专辑详情接口

HTML5武汉旅游网站源码

ZedGraph 可选定轴通过鼠标移动或通过滚轮设置轴的范围

linux-开机启动流程

解密国密 SSL 证书：SM2、SM3、SM4 算法的协同安全效应

物联网技术：起源、发展、重点技术、应用场景与未来演进

[RPA] Excel中的字典处理

Y1第4课题解（A~E）

Kubernetes深度解析：企业级容器编排平台的核心实践

在OpenMP中，#pragma omp的使用

JAVA_FourTEEN_常见算法

Python爬虫实战：研究flanker相关技术

通过 Web3 区块链安全评估，领先应对网络威胁

Java零基础入门学习知识点2-JDK安装配置+Maven

k8s常用基础命令总结

P1106 删数问题 - 洛谷

深度学习day02--神经网络（前三节）

使用 Dijkstra 算法和旅行商问题（TSP）规划快递员配送路线（python）

Qwen3-235B-A22B-Thinking-2507 - 开源思维推理模型的新标杆

ClickHouse 常用的使用场景

Java学习第七十四部分——Elasticsearch（ES）

订单数据解密：从数据来源到状态分析的SQL实战指南

【Python】一些PEP提案（四）：scandir、类型约束，异步asyncawait

工业缺陷检测的计算机视觉方法总结

Linux文件系统权限