当前位置: 首页 > news >正文

sageattention低比特量化注意力机制,比FlashAttention快5 倍

SageAttention 是 清华大学 陈键飞团队开发的一种低比特量化注意力机制,主要用于加速大模型推理和训练。以下是其核心技术和应用:

技术特点

  • 低比特量化‌:通过 FP4量化 (4比特)实现推理加速,相比传统 FlashAttention 提速5倍,同时保持精度。 ‌
  • 可训练性‌:首次支持8比特训练,在微调任务中保持与全精度注意力相同的结果。 ‌
  • 模块化设计‌:支持即插即用,可轻松集成到 PyTorch 、 TensorFlow 等框架中。 ‌

应用场景

  • 大模型优化‌:广泛应用于 视频生成 、 自然语言处理 、 推荐系统 等领域,如 HunyuanVideo 、 CogVideoX 等模型。 ‌
  • 硬件适配‌:在 英伟达RTX 5090 等GPU上实现高效运算,例如RTX 5090上达到1040万亿次每秒运算(TOPS)。 ‌
  • 最新进展
    2025年6月发布的 SageAttention3 进一步优化了量化策略,采用两级量化方法(先归一化后微缩)和动态调整量化范围,避免块内异常值影响精度。该版本在推理中保持精度优势,同时支持训练加速。 ‌

实现了 5 倍相比于 FlashAttention 的即插即用的推理加速(此前的 SageAttention V1/V2/V2++ 分别达到了 2.1,3,3.9 倍的加速效果),比如在 RTX 5090 上,SageAttention3 达到了 1040 TOPS 的速度,甚至是比 RTX 5090 昂贵十几倍的 H100 上使用 Hopper 独有的 FlashAttention3 还要快 1.65 倍!SageAttention3 在多种视频和图像生成等大模型上(包括 HunyuanVideo,CogVideoX,Mochi 和各类图像生成模型)均保持了端到端的精度表现。同时还首次提出可训练的 8 比特注意力(SageBwd)用于大模型的训练加速(注:FlashAttention3 的 FP8 版本也只支持前向传播),在各项微调任务中均保持了与全精度注意力相同的结果。

基础介绍

SageAttention 是一种专门针对 Transformer 注意力机制进行低比特量化(如 8-bit、4-bit)优化的算法库,目的在于以更低的计算资源、更小的模型延迟,同时保持精度与 FlashAttention、xFormers 等高性能库相当或更优。

SageAttention(v1)

SAGEATTENTION: ACCURATE 8-BIT ATTENTION FOR PLUG-AND-PLAY INFERENCE ACCELERATION, ICLR2025,
在这里插入图片描述

  • 对k进行平滑(减去均值),在提升精度的同时增加不到0.2%的效率开销。
  • 提出了自适应量化。总共设置了4种不同的sageattn,
    (1)对q,k使用per-block或者per-token量化、
    (2)SAGEAttn-B对于鄋的模型已经足够准确,同时能够实现2x的加速。SAGEAttn-vB在模型的模型层同样也准确同时比SAGEAttn-B快4%。因此,我们使用各种输入来测试模型每层的SAGEAttn-vB的余弦相似度。然后,我们将选择余弦相似度大于99.8%(SAGEAttn-B的最低相似度)的那些层为SAGEAttn-vB,而其他层则留给SAGEAttn-B。
    最终实现比FlashAttention2快2x的加速比。
    在这里插入图片描述

SageAttention 2

SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization,
在这里插入图片描述

  • 在线程级别对矩阵(Q,K)进行量化,并将(P,V)量化为FP8。
  • 提出了一种平滑Q的方法,以提高QK⊤的准确性。(从图中可以看到q,k,v均有一个平滑操作)。
  • 第三,提出了一种两级累积策略,以增强FP8-PV的准确性。
  • SageAttention2的速度比FlashAttention2和xformers快大约3倍和4.5倍。此外,SageAttention2在Hopper GPU上与FlashAttention3(fp8)的速度相匹配,但提供显著更高的准确性。

SageAttention 2++

SageAttention2++: A More Efficient Implementation of SageAttention2,
在 v2 基础上将PV的累加修改为fp16,实现比FlashAttention2快3.9×的推理效率,同时精度几乎无损。

SageAttention 3

SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training,
在这里插入图片描述
设计了SageAttention3,这是第一个用于推理加速的mxFP4注意力,在RTX5090上达到了1038 TOPS,比RTX5090上最快的FlashAttention快5倍。实验表明,SageAttention3能够加速各种模型,而不会造成端到端质量指标的降低。
其次,引入了第一个可训练的8位注意力(SageBwd),用于训练加速,并探讨其在训练任务中的可行性。我们发现8位注意力在微调任务中能够实现无损性能,但在预训练任务中目前有一些限制。

http://www.dtcms.com/a/343400.html

相关文章:

  • DeepSeek-V3.1 Claude Code: 革命性的AI编码助手详解与应用指南
  • 论文图片在要求dpi下,压缩尺寸
  • ES_预处理
  • java18学习笔记-Simple Web Server
  • 美国联邦调查局警告俄罗斯针对思科设备的网络间谍活动
  • 残差神经网络(ResNet)
  • 矫平机与纵剪:一条钢卷“变身”的全过程
  • 【UE5-Airsim】Windows10下安装UE5-Airsim的仿真环境
  • leetcode 1658 将x减到0的最小操作数
  • 同题异构解决leetcode第3646题下一个特殊回文数
  • Linux网络socket套接字(上)
  • linux 之virtio 的驱动框架
  • Motocycle 智能仪表盘
  • 白光干涉测量系统的复合相移三维重建和多视场形貌拼接的复现
  • 【自然语言处理与大模型】微调与RAG的区别
  • JavaScript基础语法five
  • 【Protues仿真】基于AT89C52单片机的数码管驱动事例
  • 力扣905:按奇偶排序数组
  • 2025-08-21 Python进阶4——错误和异常
  • 开发者中使用——控制台打印数据
  • 爬虫基础学习-基本原理和GET请求
  • JavaScript 基本语法
  • 智慧城市SaaS平台/市政设施运行监测系统之空气质量监测系统、VOC气体监测系统、污水水质监测系统及环卫车辆定位调度系统架构内容
  • 学习嵌入式之驱动
  • 3.2.6 混凝土基础施工
  • Chrome 内置扩展 vs WebUI:浏览器内核开发中的选择与实践
  • C++入门自学Day16-- STL容器类型总结
  • Git标准化开发流程
  • iOS 应用上架多环境实战,Windows、Linux 与 Mac 的不同路径
  • 详解开源关键信息提取方案PP-ChatOCRv4的设计与实现