当前位置：首页 > news >正文

【ICCV 2025 顶会论文】，新突破！卷积化自注意力 ConvAttn 模块，即插即用，显著降低计算量和内存开销。

news 2025/9/5 16:12:32

Bilibili：CV缝合救星

🌈 小伙伴们看过来～

写推文真的不容易，每一行字、每一张图都倾注了我们的心血💦 如果你觉得这篇内容对你有帮助、有启发，别忘了顺手点个赞、转发一下、或者点个“在看” 支持我们一下哈～✨

你的一点鼓励🌟，对我们来说就是超大的动力！

👀 小声提醒：用电脑打开阅读更舒服哟，排版清晰、体验更棒！谢谢大家～我们会继续努力产出优质内容，陪你一起进步呀✌️❤️

01 论文信息

论文题目：Emulating Self-attention with Convolution for Efficient Image Super-Resolution (ICCV 2025 顶会论文)

中文题目：用卷积模拟自注意力的高效图像超分辨率方法

即插即用模块：Convolutional Attention 卷积注意力（ConvAttn模块）

02 论文概要

Highlight

图 1. 性能、延迟和内存使用的比较。我们的方法与代表性的超分辨率模型进行评估，包括 CNN、Transformer 和状态空间模型（SSM）。

03 研究背景

🌧️ 存在的问题（背景动因）

① 自注意力的高内存开销：自注意力需要显式构建大规模相似度矩阵，涉及复杂的张量变换与内存访问，难以在轻量级任务和资源受限设备上部署。

② 卷积的局部性限制：传统卷积只能在固定核大小范围内捕捉局部特征，难以建模长程依赖，导致表达力不足。

③ 注意力与卷积割裂使用：现有方法往往单独使用注意力或卷积，两者优缺点难以互补，既无法保证全局建模，又难兼顾高效推理。

💡 解决思路（ConvAttn 核心贡献）

① 卷积化的注意力建模：提出 ConvAttn 模块，将自注意力的长程建模与输入依赖性转化为卷积操作，通过共享大核和动态小核实现高效替代。

② 共享大核捕获全局依赖：利用统一的大尺度卷积核在整个网络中复用，模拟自注意力的长程交互，避免重复计算与冗余存储。

③ 动态小核实现输入自适应：引入动态卷积核，根据输入特征生成权重，自适应建模局部依赖，保留了注意力的实例敏感性。

④ 高效轻量与可移植性：ConvAttn 在内存与计算上显著低于自注意力，同时保持表达力，可直接替换网络中大部分注意力层，适用于多种轻量化视觉任务。

04 模块原理解读

📌 模块解析 | Convolutional Attention 卷积注意力模块（ConvAttn 模块）

图 2. 所提出的ConvAttn模块流程图

📌 ConvAttn 模块聚焦于“长程依赖”与“输入自适应”的统一建模，其核心由以下三个关键特点构成：

① 共享大核建模长程依赖：通过统一的大尺度卷积核（13×13），在整个网络范围内复用，以模拟自注意力的长程交互能力。该设计有效减少了层间的冗余计算，并避免重复构建注意力矩阵，从而在保持全局感知力的同时大幅降低内存占用。

② 动态小核实现输入依赖：基于输入特征生成动态卷积核（3×3），自适应捕获局部邻域特征，模拟自注意力的实例敏感性。该机制能够针对不同输入灵活调整权重，使模型具备输入自适应的表达能力。

③ 高效轻量化实现：ConvAttn 仅在部分通道上施加大核与动态卷积，结合 1×1 卷积进行特征融合，显著降低内存访问与计算开销。相较于显式的自注意力矩阵构建，ConvAttn 在保持表示能力的同时具备更强的可部署性。

🔍 该模块通过“共享大核的全局依赖”与“动态小核的局部自适应”的协同作用，有效模拟了自注意力的核心优势，既维持了 Transformer 的长程建模能力，又缓解了内存瓶颈，在图像超分辨率等轻量化任务中表现出色。

05 创新思路

CV缝合救星原创模块

🧠 模块名称：MiLK-ConvAttn Block —— Mixture-of-Large-Kernels Convolutional Attention（混合大核卷积注意力模块）

💡 长按识别🔍，领取💾源码

💡 设计动机：在轻量化视觉网络中，传统 ConvAttn 以“共享大核 + 动态小核”近似自注意力，但共享大核对输入不敏感、层间重复度高；而单一动态 3×3 又难以覆盖长程依赖。MiLK-ConvAttn 通过“大核字典路由 + 动态小核 + 双路径软门控”三重机制，让长程分支随输入与通道自适应，同时保持局部分支的实例敏感性与低开销，兼顾可部署性与表达力。

📌 核心创新点

1. 大核字典路由（创新点⭐）
以少量可学习“大核基（bases）”构成字典，通过样本×通道级路由权重在字典上线性混合，生成按样本×通道的 depthwise 大核，实现对远程依赖的输入自适应建模，避免单一共享大核带来的表达僵化与层间冗余。

2. 动态 3×3 局部聚合（创新点⭐）
使用全局上下文驱动的轻量 MLP 产生通道特定的 3×3 动态卷积核，逐通道 depthwise 卷积捕获细粒度结构与纹理变化，保留实例敏感性与局部精度。

3. 双路径软门控融合（创新点⭐）
引入通道级二维门控，对“长程（MiLK）/局部（Dyn-3×3）”两条分支施行softmax 竞争融合，自适应分配语义与细节的权重，避免简单相加造成的信息冲突。

4. 可插拔外部共享大核（创新点⭐）
保留外部 lk_filter 全卷积路径接口，便于与既有 ConvAttn/ESC 体系对齐做可控对比实验或作为“先验长程”信号参与融合。

5. 低开销与易部署（创新点⭐）
大核在通道维度做 depthwise，字典规模小（如 6–8 个基核），路由与门控均为 1×1/全局池化 MLP，显存与时延友好，适合轻量化与移动端场景。

📌 输入输出

输入：
x ∈ [B, C, H, W] （输入特征图）
可选外部大核滤波器
输出：
[B, C, H, W] （与输入同形状）

📌 过程步骤

Step 1：通道划分
将输入特征分为前一部分参与注意力建模，后一部分作为旁路保留，降低整体计算开销。

Step 2：大核字典路由
利用全局信息生成路由权重，在大核字典中进行动态混合，得到随输入自适应的长程卷积核，捕获大范围上下文关系。

Step 3：动态 3×3 局部聚合
通过小核卷积生成动态卷积核，对局部邻域特征进行细粒度聚合，增强对纹理和边缘的刻画能力。

Step 4：可选外部分支
若提供外部共享大核，则作为附加路径叠加到长程分支，提升特征的全局一致性。

Step 5：双路径软门控融合
通过轻量化门控，对长程分支和局部分支的输出做软性融合，自适应调整两者的权重比例。

Step 6：残差输出
融合后的结果经 1×1 卷积投影，与输入残差相加，再与旁路通道拼接，得到最终输出特征图。

👉 总结：

MiLK-ConvAttn 模块通过 大核字典路由 + 动态小核聚合 + 双路径软门控 的协同优化，不仅有效模拟了自注意力的长程依赖与输入自适应特性，还保持了轻量化与可部署性。该模块在分类、检测、分割和超分辨率等任务中，兼顾全局上下文与局部细节，显著提升了模型的表达能力与性能。

06 模块适用任务

🎯 ConvAttn 模块适用任务（Convolutional Attention，卷积注意力模块）

1. 轻量化超分辨率任务：在保证长程依赖建模的同时降低内存和延迟，适合移动端实时图像/视频超分辨率。

2. 图像去噪与复原：利用大核捕捉全局依赖，小核动态聚合局部细节，提升在低对比度和噪声干扰下的还原能力。

3. 语义分割与场景解析：模拟自注意力的全局依赖关系，适合对大范围上下文敏感的分割与解析任务。

4. 小目标检测与细节识别：动态小核增强局部纹理建模，提高对小目标与边界区域的检测精度。

5. 通用可移植性：作为可替换自注意力层的轻量化组件，可嵌入 CNN 或 Transformer 主干，提升模型的全局-局部融合能力。

🎯 MiLK-ConvAttn 模块适用任务（Mixture-of-Large-Kernels Convolutional Attention，混合大核卷积注意力模块）

1. 多尺度上下文建模：大核字典路由适应不同场景尺度，适合复杂场景分割、遥感影像与医学影像解析。

2. 小目标检测与增强：长程大核与局部动态 3×3 联合建模，提升对行人、车辆、病灶等小目标的捕捉能力。

3. 跨场景适应性任务：双路径软门控融合机制能自适应调配全局与局部特征，适合开放场景检测和多类别识别。

4. 轻量化实时应用：字典规模小、计算量可控，适合自动驾驶、移动端实时分割和视频理解等对延迟敏感的任务。

5. 高扩展性嵌入：既能作为 CNN 的增强单元，也可与 Transformer 结合，兼顾全局建模与局部细节，适合分类、检测、分割等多任务场景。

📌 总结对比

ConvAttn（原始版）：更适合 轻量化和单一场景任务，突出 共享大核建模长程依赖 + 动态小核增强局部细节 的结合。它在超分辨率、图像复原和实时分割等场景下表现稳定，优势在于 高效替代自注意力、内存占用低、部署简单。
MiLK-ConvAttn（增强版）：更适合 多尺度和复杂场景任务，突出 大核字典路由 + 动态小核聚合 + 双路径软门控 的协同优化。相比原始 ConvAttn，它在 多尺度感知、跨场景适应性和小目标检测 上更具优势，能够在保证轻量化的同时实现更强的全局–局部联合建模，适合 自动驾驶、遥感、医学影像 等需要语义完整性和细节还原的任务。