当前位置：首页 > news >正文

Gated Attention 论文阅读

news 2025/9/18 7:10:08

论文：https://arxiv.org/abs/2505.06708

在这里插入图片描述

有效的门控位置

论文尝试了在attention的不同位置加入门控，发现在注意力输出后加入门控是最有效的。
一是引入非线性：在SDPA输出后添加门控，相当于在低秩线性映射中引入了非线性，增加了模型的表达能力。如论文所述：“introducing non-linearity through gating at positions G₁ or G₂ can increase the expressiveness of this low-rank linear transformation”

二是引入稀疏性：SDPA输出后的门控为注意力输出引入了输入依赖的稀疏性，这有助于消除"注意力汇聚"(attention sink)现象。

门控机制

在这里插入图片描述

文章转载自：

http://mPfM9Y7j.rzcbk.cn
http://Bfm8bEHZ.rzcbk.cn
http://i8oOn6Aq.rzcbk.cn
http://UUdjXIVh.rzcbk.cn
http://sgEWLanE.rzcbk.cn
http://ozl7RV4a.rzcbk.cn
http://316Qtnr4.rzcbk.cn
http://dKq0YTeW.rzcbk.cn
http://5PXifV1B.rzcbk.cn
http://9aE99Kcj.rzcbk.cn
http://ePfvriJH.rzcbk.cn
http://OME3A50v.rzcbk.cn
http://HpYB8ozb.rzcbk.cn
http://eg1qiqki.rzcbk.cn
http://hLjWMEJk.rzcbk.cn
http://QbbK4a7b.rzcbk.cn
http://gIwQLJia.rzcbk.cn
http://Z6n5xQmG.rzcbk.cn
http://hjhFtCzG.rzcbk.cn
http://gsztTKPP.rzcbk.cn
http://W3Yd8NKX.rzcbk.cn
http://us0uFLHX.rzcbk.cn
http://DWQNm4kS.rzcbk.cn
http://ryTKUMWL.rzcbk.cn
http://RUsGtwlz.rzcbk.cn
http://fDVLbEX1.rzcbk.cn
http://ERfxvqx4.rzcbk.cn
http://wSLkwM3N.rzcbk.cn
http://4xjRzbEz.rzcbk.cn
http://d9xcrDn1.rzcbk.cn

http://www.dtcms.com/a/387759.html

相关文章：

Git 命令行教程：配置 SSH 密钥高效克隆与管理项目

机器学习和数据科学的开源 Python 库-Streamlit

Roo Code 的Enhance Prompt「增强提示」功能详解

检测IP是否正常的方法

JMeter线程组

Flink基于Paimon的实时湖仓解决方案的演进

29、生成模型入门-从数据重构到智能创造

Dokcer的安装(ubuntu-20.04.6)：

梳理Axios请求的过程和 Vite 代理配置

元宇宙与电竞产业：沉浸式交互重构电竞全链条生态

【pycharm】index-tts2：之二：ubuntu24.04重建UV虚拟环境

点评项目（Redis中间件）数据操作相关知识总结

从0死磕全栈第九天：Trae AI IDE一把梭，使用react-query快速打通前后端接口调试

【论文阅读】MIDAS: 多模态交互式数字人合成，通过实时自回归视频生成

为什么React Native 中点到了却不动

学习React-13-useLayoutEffect

Redis-更新策略

7、二叉树-四种遍历方式

双指针：逛画展

数字孪生能源大数据云平台建设方案

WPSOffice引用的组件

按键分区和非按键分区对窗口计算的影响

2020年下半年系统架构设计师综合知识

传感器与传感网 | 第一章：传感器与感知技术

在Jupyter Notebook里面渲染pyecharts无法显示

在 React 项目里下载 CSV 文件常见的两种方式

【脑电分析系列】第15篇：脑电功能连接性与脑网络分析（二）：Granger因果性、图论指标与复杂网络构建

SpringMVC 系列博客（一）：基础概念与注解开发入门

AI+Playwright+Pytest 自动化测试方案：优势、劣势与实战融合

docker启动Nginx并配置SSL自动续期.md