当前位置：首页 > news >正文

LLM attention 变体

news 2025/10/1 8:09:26

文章目录

初阶：MHA： multi-head attention
[GQA:group query attention](http://arxiv.org/pdf/2305.13245) [2023. 12, Google]
MQA：multi-query attention(https://arxiv.org/pdf/2305.13245)[2023.12, google]
进阶：flash attention
高阶：
- [Linear Attention](https://arxiv.org/pdf/2310.01082) [MIT&KAIST, 2024.3]
- Sliding Window Attention
- Sparse Attention

初阶：MHA： multi-head attention

multi head的Q/K/V，分别按头进行计算
问题：在推理时，MHA最大的瓶颈是KV Cache的内存占用。每个头都需要独立的K和V矩阵，这在长序列、大批量的推理中非常消耗显存。在自回归推理中，Query 是动态变化的，而 Key 和 Value 是可以被缓存和重复使用的。共享 K/V 能够最大化地利用缓存，从而节省内存和计算。

GQA:group query attention [2023. 12, Google]

Llama 2 引入，llama3, qwen2 等都在使用
GQA旨在显著减少KV Cache的内存占用，同时保持接近MHA的性能。【速度和质量的平衡态】
核心思想:
- 它是一种介于MHA和MQA（见下文）之间的折中方案。
- 将Q头分成g个组，每个组内的所有Q头共享同一份K和V头。
- 例如，8个Q头可以分成4组，每2个Q头共享一份K和V。

MQA：multi-query attention(https://arxiv.org/pdf/2305.1324

http://www.dtcms.com/a/323992.html

相关文章：

基于FFmpeg的B站视频下载处理

组合数学覆盖设计阶段成果：C(12,4)的5组四元组覆盖C(12,3)所有三元组

我如何从安全运维逆袭成企业CSO

(LeetCode 面试经典 150 题) 104. 二叉树的最大深度 (深度优先搜索dfs)

鱼的游动+Compute Shader

特征模理论中的特征值、模式重要性、特征角和模式权重系数的物理含义分别是什么？彼此间存在什么数学关系？如何用CST 仿真软件查看这些参数？

一篇文章解决 Win10 同时部署多个版本的Tomcat

WiFi原理与WiFi安全

【秋招笔试】2025.08.09美团秋招算法岗机考真题-第一题

C语言——深入理解指针（二）

JavaSE:入门

LeetCode 组合总数

五种Excel表格导出方案

40.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--扩展功能--集成网关--初始化网关

Pytorch深度学习框架实战教程-番外篇05-Pytorch全连接层概念定义、工作原理和作用

afsim2.9_使用QtCreator和VSCode编译

ShadowKV 机制深度解析：高吞吐长上下文 LLM 推理的 KV 缓存“影子”方案

GPT OSS深度解析：OpenAI时隔6年的开源模型，AI民主化的新里程碑?

FFmpeg实现音视频转码

Java 日常开发笔记（小程序页面交互传参-id）

ATF(TF-A)安全通告 TFV-13（CVE-2024-7881）

《从零构建大语言模型》学习笔记4，注意力机制1

ubuntu22.04安装autoware.universe

【YOLOv8改进 - C2f融合】C2f融合Outlook Attention：将细粒度特征编码到 token 中，提高在图像分类和语义分割等任务中的性能

Docker Compose 部署高可用 MongoDB 副本集集群（含 Keepalived + HAProxy 负载均衡）

106-基于Flask的重庆充电桩投建数据可视化分析系统

Spring Boot WebSocket实时在线人数统计

从onnx模型到om模型的全自动化转化

Spring Boot集成WebSocket

Vue 3 的编译时优化如何改写 DOM 操作规则