当前位置: 首页 > news >正文

(arxiv2411) CARE Transformer

在这里插入图片描述作者提出了两个问题,问题 1:堆叠是充分利用局部归纳偏差和长距离信息优势的最佳方法吗?
问题 2:是否有可能同时提高线性视觉 Transformer 的效率和准确性?

image-20250215082606794

为了解决这两个问题,作者提出了一种 deCoupled duAl-interactive lineaR attEntion(CARE)。对于问题 1,asymmetrical decoupling strategy可以充分释放线性注意力的潜力。如图 2(b)所示,通过在通道维度上对特征进行解耦,输入无需经过所有的卷积和线性注意力操作。对于问题2,为了充分利用特征的互补性,首先设计了一个动态记忆单元保留关键信息。然后,引入了一个dual interaction module,有效地促进局部偏差和长距离依赖之间以及不同层特征之间的交互。非对称解耦策略节省了学习局部归纳偏差和全局信息的计算成本,而跨特征交互可以灵活有效地利用所学特征中的信息。

模型的总体框架如下图所示,分为四个阶段,每个阶段里有若干 CARE block堆叠。在 CARE block里,首先进行特征的 asymmetrical decoupling,即将输入特征从通道维度分为两部分,一部分进行线性注意力计算,另一部分进行卷积运算。然后特征输入到 dual interaction module 处理,细节如下图所示。在第二次 interaction 里,引入了Z,也就是动态记忆单元。

image-20250215094811405

这个工作在前面重点介绍了“Demystify Mamba in Vision: A Linear Attention Perspective”中提出的MILA,说在该工作中 Linear attention 和 卷积 被堆叠。因此,作者想法是将二两进行不对称解耦。我比较好奇用于 linear attention 和 卷积 两部分的特征比例是如何设置的,也许是我看不够仔细,论文里貌似没有介绍。

相关文章:

  • 【每日德语】Ich bin müde 我累了
  • python的两种单例模式
  • 深度剖析 NVIDIA Isaac Sim:重塑机器人开发的创新引擎
  • 跟着 Lua 5.1 官方参考文档学习 Lua (1)
  • 力扣 最长递增子序列
  • 149,[4] BUUCTF WEB [GYCTF2020]FlaskApp(不会)
  • 再谈SpringCloud Gateway源码
  • 【算法进阶详解 第一节】树状数组
  • 人工智能在文化遗产保护中的创新:科技与文化的完美融合
  • Redis离线安装
  • springboot项目如何部署到tomcat中
  • 深度学习算法:开启智能时代的钥匙
  • 前端为什么要使用new Promise包裹一个函数
  • 联合概率:定义、公式和示例
  • CRISPR spacers数据库;CRT和PILER-CR用于MAGs的spacers搜索
  • 强化学习-策略梯度算法
  • 复旦:LLM知识问答任务性能预测
  • 【第13章:自监督学习与少样本学习—13.4 自监督学习与少样本学习的未来研究方向与挑战】
  • Spring Boot02(数据库、Redis)---java八股
  • 利用xtquant高效获取财务数据:量化分析的重要补充
  • 王毅同巴基斯坦副总理兼外长达尔通电话
  • 长沙潮宗街内“金丝楠木老屋文旅博物馆”起火:明火已扑灭,无伤亡
  • 湖北宜昌:在青山绿水间解锁乡村振兴“密码”
  • 拿出压箱底作品,北京交响乐团让上海观众享受音乐盛宴
  • 央行:货币与物价的关系受多重因素影响,提振物价的关键在于扩大有效需求
  • 纽约大学朗格尼医学中心的转型带来哪些启示?