当前位置: 首页 > wzjs >正文

南山做网站行业网站建设投资

南山做网站行业,网站建设投资,wordpress未验证邮箱用户,建筑公司网站设计思路论文标题 SAS: Simulated Attention Score 论文地址 https://arxiv.org/pdf/2507.07694 代码 见论文附录 作者背景 摩根士丹利,斯坦福大学,微软研究院,新加坡国立大学,得克萨斯大学奥斯汀分校,香港大学 动机 …

论文标题

SAS: Simulated Attention Score

论文地址

https://arxiv.org/pdf/2507.07694

代码

见论文附录

作者背景

摩根士丹利,斯坦福大学,微软研究院,新加坡国立大学,得克萨斯大学奥斯汀分校,香港大学

动机

多头注意力是 Transformer 的核心组件,它通过引入多组 QKV 投影来捕获不同的特征子空间,从而在机器翻译、问答等任务中取得巨大成功。研究表明,注意力头的数量对 Transformer 性能至关重要:在保证每个头的隐藏维度充分大的前提下,注意力头数越多可以使模型效果越好。但问题在于,直接增加头数或维度往往伴随着模型参数量和计算开销的剧增,这在训练和部署中代价高昂

在这里插入图片描述

目前也有一些注意力架构旨在提高计算效率,例如共享部分 K 和 V 的 MQA、GQA;使用矩阵分解的 MLA、MFA、TPA 等。但这些方法主要关注降低内存/计算成本,而非提升注意力的表达能力

于是作者希望在不显著增加参数的前提下,设计一种新的注意力架构,实现近似于使用了更多注意力头和更高每头维度的性能提升

本文方法

本文提出 SAS(Simulated Attention Score,模拟注意力分数),核心思想是在注意力计算中引入额外的映射层,将低维的头表示投射到更高维空间,以此“虚拟地”增大注意力头数和每头的隐藏维度

一、扩展注意力头

对于查询Q,其特征维度为 [B, T, H, D],分别表示 batch_size,序列长度,头数和隐藏维度。为了扩充 H,需要把其他维度拉平,得到张量 Q_0,维度为 [B * T * D, H] ;然后使用一个 H * H’ 的线性变换得到 Q_1,维度为 [B * T * D, H’],其中 H’ > H;Q_1 过一个 ReLU 引入非线性;最后再过一个 H’ * H’ 的线性层,并加上 Q_1 的残差连接

在这里插入图片描述

于是我们获得了更多的注意力头,其中残差连接的引入可以稳定训练;值得注意的是,原始头数 H 和扩展后的头数 H’ 都远小于每头的特征维度 D,所以这个两层 MLP 的参数开销相对整模型来说可以忽略不计

除了使用 MLP 来扩展维度,作者还尝试了卷积方案。具体地,将查询 Q 的维度整理成 [B * T, H, D],类似于多通道特征图,然后使用卷积变换将 H 扩展成 H’,同样地,H’ > H,最后再过第二层卷积以及残差连接

在这里插入图片描述

类似地,在 K、V 中都应用上述扩展流程

二、扩展注意力维度

直觉上,每个注意力头内部特征维度 D 越大,其能够捕获的子空间信息越丰富。因此作者进一步在 Q 和 K 上也引入了类似的维度扩展映射。这里之所以不对 V 进行扩展,是因为 V

直接决定了注意力模块的输出张量隐藏维度,扩大 V 的每头维度到 D 会导致后续前馈层的参数量大幅增加,违背了不显著增加计算量的初衷

在这里插入图片描述

三、注意力聚合

在标准多头注意力中,会将所有头的输出向量拼接,再通过一个输出投影矩阵 O 映射回模型的隐藏维度。然而,由于 SAS 对注意力头数进行了扩增,若仍按传统方式拼接势必导致输出维度变大,进而导致 O 的参数量大大增加(H * hidden 变为 H’ * hidden)。为此,作者提出了参数高效注意力聚合机制,旨在不增加输出层参数规模的情况下完成对多头输出的整合

实现过程非常简单:假设注意力头数扩展了 r 倍,即 r * H = H’,那么便把所有头划分成 r 组,每组都按照原本的计算流程与 O 相乘,得到 r 组输出结果,最后取平均作为注意力模块的最终输出传向前馈层

在这里插入图片描述

实验结果

作者在多种基准任务和数据集上对SAS进行了验证,包括语言模型预训练及下游任务评估,全面展示了SAS在准确率和效率方面的优势

一、预训练效果

下图对比了SAS与标准MHA、MQA、GQA、MLA、TPA等方法在ArXiv和Books3数据集上的表现。结果表明,无论是短序列训练(长度512)还是长序列训练(长度1024),SAS均取得了最低的验证困惑度

在这里插入图片描述

除了取得更好的性能,SAS还加速了模型的收敛。作者报告,在 Books3 数据集、序列长度512的训练中,MHA模型在5万步时达到29.86的验证困惑度,而SAS模型在3万步时就达到了相近的30.49,即 SAS 可以节约 40% 左右的计算资源

此外,作者还在更大的训练长度、更大的模型尺寸上做了验证,结果表明相比于其他注意力机制 SAS 具备稳定的优势

二、下游任务效果

作者评测了在多个下游任务基准(ARC、HellaSwag、PIQA、ScIQ、SocialIQA、WinoGrande)上 SAS 与其他注意力模型的效果,可见在多种参数量、训练数据量的实验设置下,SAS 大部分情况下都表现出了最优性能

在这里插入图片描述


文章转载自:

http://xPSFIx7f.xfyjn.cn
http://3hn4nDng.xfyjn.cn
http://htWGLnZz.xfyjn.cn
http://IjXXylDu.xfyjn.cn
http://10WMMWXP.xfyjn.cn
http://iPqwmIp5.xfyjn.cn
http://ijN1pktv.xfyjn.cn
http://5hOWcVus.xfyjn.cn
http://lEYhV7k8.xfyjn.cn
http://8beSY02M.xfyjn.cn
http://twYGsGr8.xfyjn.cn
http://q6macGFu.xfyjn.cn
http://AVvGQo12.xfyjn.cn
http://oMiHgcxm.xfyjn.cn
http://VehZftNB.xfyjn.cn
http://vLLEywzh.xfyjn.cn
http://zvxewBC4.xfyjn.cn
http://2BuLqmwj.xfyjn.cn
http://OzG9IRFt.xfyjn.cn
http://QouskTKM.xfyjn.cn
http://PSi5v3ml.xfyjn.cn
http://NLGp0iI4.xfyjn.cn
http://qtCbe04X.xfyjn.cn
http://YNj7j4gq.xfyjn.cn
http://bkuwbYIW.xfyjn.cn
http://MeeOsm2v.xfyjn.cn
http://8JIqA4EA.xfyjn.cn
http://9WpYO54y.xfyjn.cn
http://PUtlZ73S.xfyjn.cn
http://ap1NWEED.xfyjn.cn
http://www.dtcms.com/wzjs/746661.html

相关文章:

  • 网站的设计php网站语言切换功能如何做
  • 揭阳市建设局网站制作网站作业
  • 公司手机网站模板网络培训心得体会5篇
  • 做ipad的网站尺寸是多少wordpress攻略
  • 如何看别人网站用什么做的wordpress首页按钮
  • 90设计官方网站页面设计介绍
  • 自己公司的网站怎么编辑水网站模板
  • 网站设计论文致谢枫叶主机 wordpress
  • 网站空间购买多少钱最好的开发网站建设
  • 专业做酒类营销的网站网站做的关键词被屏蔽
  • 怎么查看一个网站的建设地区华为云网站定制
  • 滨州改版网站建设服务微信 网站设计模板
  • 潍坊网站建设建站浙江大学教室办事大厅网站建设
  • 怎么建立网站数据库wordpress woocommerce 主题
  • 机关单位网站建设工作方案平面设计优秀作品
  • 四川建设厅网站登录不上咋办社科联网站建设方案策划书
  • 建设网站的目的和功能wordpress 置顶 不显示
  • 护肤品网站建设哪的网页设计培训好
  • 股票网站怎么做哪个淘宝客网站最好
  • 网站每年服务费企业免费做网站
  • 女生网站开发wordpress怎么添加登录
  • 做电台用啥什么网站东莞网站制作功能
  • 广告网站建设方案免费seo快速排名工具
  • 网站seo分析工具网站建设上海公司
  • 儋州个人建站哪家好网站好友邀请链接生成 php
  • 市场营销网站建设网站app 开发
  • 外贸网站建站主题资源网站制作平台
  • 模拟手机营销网站建设银行网站登录
  • 设计感的网站wordpress怎么填写
  • 有口碑的南昌网站制作大资讯wordpress主题