当前位置: 首页 > news >正文

徐州手机网站东莞seo建站推广

徐州手机网站,东莞seo建站推广,做网站公司 陕西渭南,做ppt图片网站 知乎SageAttention 是 清华大学 陈键飞团队开发的一种低比特量化注意力机制,主要用于加速大模型推理和训练。以下是其核心技术和应用: 技术特点 低比特量化‌:通过 FP4量化 (4比特)实现推理加速,相比传统 Flash…

SageAttention 是 清华大学 陈键飞团队开发的一种低比特量化注意力机制,主要用于加速大模型推理和训练。以下是其核心技术和应用:

技术特点

  • 低比特量化‌:通过 FP4量化 (4比特)实现推理加速,相比传统 FlashAttention 提速5倍,同时保持精度。 ‌
  • 可训练性‌:首次支持8比特训练,在微调任务中保持与全精度注意力相同的结果。 ‌
  • 模块化设计‌:支持即插即用,可轻松集成到 PyTorch 、 TensorFlow 等框架中。 ‌

应用场景

  • 大模型优化‌:广泛应用于 视频生成 、 自然语言处理 、 推荐系统 等领域,如 HunyuanVideo 、 CogVideoX 等模型。 ‌
  • 硬件适配‌:在 英伟达RTX 5090 等GPU上实现高效运算,例如RTX 5090上达到1040万亿次每秒运算(TOPS)。 ‌
  • 最新进展
    2025年6月发布的 SageAttention3 进一步优化了量化策略,采用两级量化方法(先归一化后微缩)和动态调整量化范围,避免块内异常值影响精度。该版本在推理中保持精度优势,同时支持训练加速。 ‌

实现了 5 倍相比于 FlashAttention 的即插即用的推理加速(此前的 SageAttention V1/V2/V2++ 分别达到了 2.1,3,3.9 倍的加速效果),比如在 RTX 5090 上,SageAttention3 达到了 1040 TOPS 的速度,甚至是比 RTX 5090 昂贵十几倍的 H100 上使用 Hopper 独有的 FlashAttention3 还要快 1.65 倍!SageAttention3 在多种视频和图像生成等大模型上(包括 HunyuanVideo,CogVideoX,Mochi 和各类图像生成模型)均保持了端到端的精度表现。同时还首次提出可训练的 8 比特注意力(SageBwd)用于大模型的训练加速(注:FlashAttention3 的 FP8 版本也只支持前向传播),在各项微调任务中均保持了与全精度注意力相同的结果。

基础介绍

SageAttention 是一种专门针对 Transformer 注意力机制进行低比特量化(如 8-bit、4-bit)优化的算法库,目的在于以更低的计算资源、更小的模型延迟,同时保持精度与 FlashAttention、xFormers 等高性能库相当或更优。

SageAttention(v1)

SAGEATTENTION: ACCURATE 8-BIT ATTENTION FOR PLUG-AND-PLAY INFERENCE ACCELERATION, ICLR2025,
在这里插入图片描述

  • 对k进行平滑(减去均值),在提升精度的同时增加不到0.2%的效率开销。
  • 提出了自适应量化。总共设置了4种不同的sageattn,
    (1)对q,k使用per-block或者per-token量化、
    (2)SAGEAttn-B对于鄋的模型已经足够准确,同时能够实现2x的加速。SAGEAttn-vB在模型的模型层同样也准确同时比SAGEAttn-B快4%。因此,我们使用各种输入来测试模型每层的SAGEAttn-vB的余弦相似度。然后,我们将选择余弦相似度大于99.8%(SAGEAttn-B的最低相似度)的那些层为SAGEAttn-vB,而其他层则留给SAGEAttn-B。
    最终实现比FlashAttention2快2x的加速比。
    在这里插入图片描述

SageAttention 2

SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization,
在这里插入图片描述

  • 在线程级别对矩阵(Q,K)进行量化,并将(P,V)量化为FP8。
  • 提出了一种平滑Q的方法,以提高QK⊤的准确性。(从图中可以看到q,k,v均有一个平滑操作)。
  • 第三,提出了一种两级累积策略,以增强FP8-PV的准确性。
  • SageAttention2的速度比FlashAttention2和xformers快大约3倍和4.5倍。此外,SageAttention2在Hopper GPU上与FlashAttention3(fp8)的速度相匹配,但提供显著更高的准确性。

SageAttention 2++

SageAttention2++: A More Efficient Implementation of SageAttention2,
在 v2 基础上将PV的累加修改为fp16,实现比FlashAttention2快3.9×的推理效率,同时精度几乎无损。

SageAttention 3

SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training,
在这里插入图片描述
设计了SageAttention3,这是第一个用于推理加速的mxFP4注意力,在RTX5090上达到了1038 TOPS,比RTX5090上最快的FlashAttention快5倍。实验表明,SageAttention3能够加速各种模型,而不会造成端到端质量指标的降低。
其次,引入了第一个可训练的8位注意力(SageBwd),用于训练加速,并探讨其在训练任务中的可行性。我们发现8位注意力在微调任务中能够实现无损性能,但在预训练任务中目前有一些限制。

http://www.dtcms.com/a/513257.html

相关文章:

  • 凡科建网seo外链推广员
  • 小学生网上学做辅导哪个网站好那个网站可以做空比特币
  • 基于Q-learning算法的MATLAB房间路径规划实现
  • 【CTF | 比赛篇】强网杯wp
  • Java 的map集合体系
  • 旅游网站代码html快站优惠券去哪里找
  • 建设银行的积分网站php+mysql 网站建设
  • 网站制作费四川鸿业建设集团网站
  • 外贸假发 网站杭州网站开发培训
  • 怎么搭建局域网网站wordpress小人无法显示
  • RabbitMQ 七种工作模式全解析
  • 【记录】Unity|Unity从安装到打开一个Github项目(以我的世界(仿)为例)
  • 网站域名管理中心阿里云轻量级服务器搭建wordpress
  • 网站企业备案代理国外psd免费下载网站
  • 网站内链wordpress插件中国电力建设协会网站
  • 浙江建设信息港网站笔记转wordpress
  • 互动网站设计与制作做企业网站那家好
  • 免费浏览网站推广常熟做网站公司排名
  • 网站如何做跳转wordpress 启用插件代码
  • 设计商城网站陕西建设监理证书查询网站
  • AI学习日记——PyTorch深度学习快速入门:神经网络构建与训练实战
  • 建材网站织梦房产网站源码
  • 如何创建一个自己的公众号哪里有网站推广优化
  • (六)React事件处理基础内容解析
  • 品牌网站建设需要哪些规划个人做百度云下载网站吗
  • linux_缓冲区及简单libc库【Ubuntu】
  • 北京通州网站建设新手如何做淘宝运营
  • 申请中网可信网站基层建设 官方网站
  • 杭州网站网络 科技公司交互做的好的中国网站
  • Java中String类