当前位置: 首页 > news >正文

【ICCV 2025 顶会论文】,新突破!卷积化自注意力 ConvAttn 模块,即插即用,显著降低计算量和内存开销。

Bilibili:CV缝合救星

🌈 小伙伴们看过来~

写推文真的不容易,每一行字、每一张图都倾注了我们的心血💦 如果你觉得这篇内容对你有帮助、有启发,别忘了顺手点个赞、转发一下、或者点个“在看” 支持我们一下哈~✨

你的一点鼓励🌟,对我们来说就是超大的动力!

👀 小声提醒:用电脑打开阅读更舒服哟,排版清晰、体验更棒!谢谢大家~我们会继续努力产出优质内容,陪你一起进步呀✌️❤️

image.png

01 论文信息

论文题目:Emulating Self-attention with Convolution for Efficient Image Super-Resolution (ICCV 2025 顶会论文)

中文题目:用卷积模拟自注意力的高效图像超分辨率方法

即插即用模块:Convolutional Attention 卷积注意力(ConvAttn模块)

02 论文概要

Highlight

image.png

图 1. 性能、延迟和内存使用的比较。我们的方法与代表性的超分辨率模型进行评估,包括 CNN、Transformer 和状态空间模型(SSM)。

03 研究背景

    🌧️ 存在的问题(背景动因)

自注意力的高内存开销:自注意力需要显式构建大规模相似度矩阵,涉及复杂的张量变换与内存访问,难以在轻量级任务和资源受限设备上部署。

卷积的局部性限制:传统卷积只能在固定核大小范围内捕捉局部特征,难以建模长程依赖,导致表达力不足。

注意力与卷积割裂使用:现有方法往往单独使用注意力或卷积,两者优缺点难以互补,既无法保证全局建模,又难兼顾高效推理。

    💡 解决思路(ConvAttn 核心贡献)

卷积化的注意力建模:提出 ConvAttn 模块,将自注意力的长程建模与输入依赖性转化为卷积操作,通过共享大核和动态小核实现高效替代。

共享大核捕获全局依赖:利用统一的大尺度卷积核在整个网络中复用,模拟自注意力的长程交互,避免重复计算与冗余存储。

动态小核实现输入自适应:引入动态卷积核,根据输入特征生成权重,自适应建模局部依赖,保留了注意力的实例敏感性。

高效轻量与可移植性:ConvAttn 在内存与计算上显著低于自注意力,同时保持表达力,可直接替换网络中大部分注意力层,适用于多种轻量化视觉任务。

04 模块原理解读

📌 模块解析 | Convolutional Attention 卷积注意力模块(ConvAttn 模块)

image.png

    图 2. 所提出的ConvAttn模块流程图  

    📌 ConvAttn 模块聚焦于“长程依赖”与“输入自适应”的统一建模,其核心由以下三个关键特点构成:

共享大核建模长程依赖:通过统一的大尺度卷积核(13×13),在整个网络范围内复用,以模拟自注意力的长程交互能力。该设计有效减少了层间的冗余计算,并避免重复构建注意力矩阵,从而在保持全局感知力的同时大幅降低内存占用。

动态小核实现输入依赖:基于输入特征生成动态卷积核(3×3),自适应捕获局部邻域特征,模拟自注意力的实例敏感性。该机制能够针对不同输入灵活调整权重,使模型具备输入自适应的表达能力。

高效轻量化实现:ConvAttn 仅在部分通道上施加大核与动态卷积,结合 1×1 卷积进行特征融合,显著降低内存访问与计算开销。相较于显式的自注意力矩阵构建,ConvAttn 在保持表示能力的同时具备更强的可部署性。

    🔍 该模块通过“共享大核的全局依赖”与“动态小核的局部自适应”的协同作用,有效模拟了自注意力的核心优势,既维持了 Transformer 的长程建模能力,又缓解了内存瓶颈,在图像超分辨率等轻量化任务中表现出色。

05 创新思路

CV缝合救星原创模块

    🧠 模块名称MiLK-ConvAttn Block —— Mixture-of-Large-Kernels Convolutional Attention(混合大核卷积注意力模块)

    💡 长按识别🔍,领取💾源码

image.png

    💡 设计动机:在轻量化视觉网络中,传统 ConvAttn 以“共享大核 + 动态小核”近似自注意力,但共享大核对输入不敏感、层间重复度高;而单一动态 3×3 又难以覆盖长程依赖。MiLK-ConvAttn 通过“大核字典路由 + 动态小核 + 双路径软门控”三重机制,让长程分支随输入与通道自适应,同时保持局部分支的实例敏感性与低开销,兼顾可部署性与表达力。

    📌 核心创新点

1. 大核字典路由(创新点⭐)
以少量可学习“大核基(bases)”构成字典,通过样本×通道级路由权重在字典上线性混合,生成按样本×通道的 depthwise 大核,实现对远程依赖的输入自适应建模,避免单一共享大核带来的表达僵化与层间冗余。

2. 动态 3×3 局部聚合(创新点⭐)
使用全局上下文驱动的轻量 MLP 产生通道特定的 3×3 动态卷积核,逐通道 depthwise 卷积捕获细粒度结构与纹理变化,保留实例敏感性与局部精度。

3. 双路径软门控融合(创新点⭐)
引入通道级二维门控,对“长程(MiLK)/局部(Dyn-3×3)”两条分支施行softmax 竞争融合,自适应分配语义与细节的权重,避免简单相加造成的信息冲突。

4. 可插拔外部共享大核(创新点⭐)
保留外部 lk_filter 全卷积路径接口,便于与既有 ConvAttn/ESC 体系对齐做可控对比实验或作为“先验长程”信号参与融合。

5. 低开销与易部署(创新点⭐)
大核在通道维度做 depthwise,字典规模小(如 6–8 个基核),路由与门控均为 1×1/全局池化 MLP,显存与时延友好,适合轻量化与移动端场景。

📌 输入输出

  • 输入
    x ∈ [B, C, H, W] (输入特征图)

    可选外部大核滤波器

  • 输出
    [B, C, H, W] (与输入同形状)

📌 过程步骤

Step 1:通道划分
将输入特征分为前一部分参与注意力建模,后一部分作为旁路保留,降低整体计算开销。

Step 2:大核字典路由
利用全局信息生成路由权重,在大核字典中进行动态混合,得到随输入自适应的长程卷积核,捕获大范围上下文关系。

Step 3:动态 3×3 局部聚合
通过小核卷积生成动态卷积核,对局部邻域特征进行细粒度聚合,增强对纹理和边缘的刻画能力。

Step 4:可选外部分支
若提供外部共享大核,则作为附加路径叠加到长程分支,提升特征的全局一致性。

Step 5:双路径软门控融合
通过轻量化门控,对长程分支和局部分支的输出做软性融合,自适应调整两者的权重比例。

Step 6:残差输出
融合后的结果经 1×1 卷积投影,与输入残差相加,再与旁路通道拼接,得到最终输出特征图。

    👉 总结:

    MiLK-ConvAttn 模块通过 大核字典路由 + 动态小核聚合 + 双路径软门控 的协同优化,不仅有效模拟了自注意力的长程依赖与输入自适应特性,还保持了轻量化与可部署性。该模块在分类、检测、分割和超分辨率等任务中,兼顾全局上下文与局部细节,显著提升了模型的表达能力与性能。

06 模块适用任务

    🎯 ConvAttn 模块适用任务(Convolutional Attention,卷积注意力模块)

1. 轻量化超分辨率任务:在保证长程依赖建模的同时降低内存和延迟,适合移动端实时图像/视频超分辨率。

2. 图像去噪与复原:利用大核捕捉全局依赖,小核动态聚合局部细节,提升在低对比度和噪声干扰下的还原能力。

3. 语义分割与场景解析:模拟自注意力的全局依赖关系,适合对大范围上下文敏感的分割与解析任务。

4. 小目标检测与细节识别:动态小核增强局部纹理建模,提高对小目标与边界区域的检测精度。

5. 通用可移植性:作为可替换自注意力层的轻量化组件,可嵌入 CNN 或 Transformer 主干,提升模型的全局-局部融合能力。

    🎯 MiLK-ConvAttn 模块适用任务(Mixture-of-Large-Kernels Convolutional Attention,混合大核卷积注意力模块)

1. 多尺度上下文建模:大核字典路由适应不同场景尺度,适合复杂场景分割、遥感影像与医学影像解析。

2. 小目标检测与增强:长程大核与局部动态 3×3 联合建模,提升对行人、车辆、病灶等小目标的捕捉能力。

3. 跨场景适应性任务:双路径软门控融合机制能自适应调配全局与局部特征,适合开放场景检测和多类别识别。

4. 轻量化实时应用:字典规模小、计算量可控,适合自动驾驶、移动端实时分割和视频理解等对延迟敏感的任务。

5. 高扩展性嵌入:既能作为 CNN 的增强单元,也可与 Transformer 结合,兼顾全局建模与局部细节,适合分类、检测、分割等多任务场景。

📌 总结对比

  • ConvAttn(原始版):更适合 轻量化和单一场景任务,突出 共享大核建模长程依赖 + 动态小核增强局部细节 的结合。它在超分辨率、图像复原和实时分割等场景下表现稳定,优势在于 高效替代自注意力、内存占用低、部署简单

  • MiLK-ConvAttn(增强版):更适合 多尺度和复杂场景任务,突出 大核字典路由 + 动态小核聚合 + 双路径软门控 的协同优化。相比原始 ConvAttn,它在 多尺度感知、跨场景适应性和小目标检测 上更具优势,能够在保证轻量化的同时实现更强的全局–局部联合建模,适合 自动驾驶、遥感、医学影像 等需要语义完整性和细节还原的任务。

07 运行结果与即插即用代码

运行结果

🎯 ConvAttn模块

image.png

 🎯MiLK-ConvAttn模块

image.png

本文代码获取

立即加星标

每天看好文

image.png

image.png

扫码关注

福高照 祭灶神

扫尘土 贴窗花


文章转载自:

http://e6yhVBaR.rxrzd.cn
http://TAxsCPsQ.rxrzd.cn
http://Xu337m5v.rxrzd.cn
http://ldUvuOTP.rxrzd.cn
http://bGWiqiBq.rxrzd.cn
http://g7nsg4AI.rxrzd.cn
http://u8v2pogD.rxrzd.cn
http://PGG4iWfg.rxrzd.cn
http://IBbRtaB1.rxrzd.cn
http://n8KrN9rX.rxrzd.cn
http://u4j6pt8z.rxrzd.cn
http://CzY3aKiI.rxrzd.cn
http://YbITsOn4.rxrzd.cn
http://79YrERZj.rxrzd.cn
http://4gjod8Ey.rxrzd.cn
http://w7hnLm2G.rxrzd.cn
http://JIDAJmW8.rxrzd.cn
http://yCz86iTR.rxrzd.cn
http://gY5ZgmaJ.rxrzd.cn
http://gMdjLAik.rxrzd.cn
http://YUD8YmOL.rxrzd.cn
http://u6YyTm9f.rxrzd.cn
http://lkLwOtS3.rxrzd.cn
http://mA6DDJyv.rxrzd.cn
http://gPxQiXHA.rxrzd.cn
http://lgHPwGFb.rxrzd.cn
http://VD8XXdgP.rxrzd.cn
http://qccfWpGa.rxrzd.cn
http://mXqmgeTI.rxrzd.cn
http://Tl9JvXGp.rxrzd.cn
http://www.dtcms.com/a/367758.html

相关文章:

  • HTB Jerry
  • 微信支付--在线支付实战,引入Swagger,定义统一结果,创建并连接数据库
  • 为什么串口发送一串数据时需要延时?
  • 决策树算法详解:从原理到实战
  • 生成式AI优化新纪元:国产首个GEO工具的技术架构剖析
  • 2025年高教社杯全国大学生数学建模竞赛B题思路(2025数学建模国赛B题思路)
  • 【C语言】第一课 环境配置
  • git命令行打patch
  • day2today3夏暮客的Python之路
  • 随时学英语5 逛生活超市
  • Web相关知识(草稿)
  • 计算机组成原理:GPU架构、并行计算、内存层次结构等
  • 用服务器搭 “私人 AI 助手”:不用联网也能用,支持语音对话 / 文档总结(教程)
  • 学生时间管理系统设计与实现(代码+数据库+LW)
  • 【3D 入门-6】大白话解释 SDF(Signed Distance Field) 和 Marching Cube 算法
  • 并发编程——17 CPU缓存架构详解高性能内存队列Disruptor实战
  • Pycharm终端pip install的包都在C:\Users\\AppData\Roaming\Python\解决办法
  • Linux中用于线程/进程同步的核心函数——`sem_wait`函数
  • Day2p2 夏暮客的Python之路
  • C++虚函数虚析构函数纯虚函数的使用说明和理解
  • Process Explorer 学习笔记(第三章3.1.1):度量 CPU 的使用情况详解
  • 机器学习入门,第一个MCP示例
  • Spring Boot项目中MySQL索引失效的常见场景与解决方案
  • 2025 年高教社杯全国大学生数学建模竞赛C 题 NIPT 的时点选择与胎儿的异常判定 完整成品思路模型代码分享,全网首发高质量!!!
  • 代码随想录学习摘抄day6(二叉树1-11)
  • 吴恩达机器学习(五)
  • Web 与 Nginx 网站服务:从基础到实践
  • 为什么打印出来的 cJSON type 值和头文件定义的不一样?
  • MySQL子查询的分类讲解与实战
  • 【蓝桥杯选拔赛真题64】C++最大空白区 第十四届蓝桥杯青少年创意编程大赛 算法思维 C++编程选拔赛真题解