当前位置: 首页 > news >正文

LLM attention 变体

文章目录

  • 初阶:MHA: multi-head attention
  • [GQA:group query attention](http://arxiv.org/pdf/2305.13245) [2023. 12, Google]
  • MQA:multi-query attention(https://arxiv.org/pdf/2305.13245)[2023.12, google]
  • 进阶:flash attention
  • 高阶:
    • [Linear Attention](https://arxiv.org/pdf/2310.01082) [MIT&KAIST, 2024.3]
    • Sliding Window Attention
    • Sparse Attention

初阶:MHA: multi-head attention

  • multi head的Q/K/V,分别按头进行计算
  • 问题:在推理时,MHA最大的瓶颈是KV Cache的内存占用。每个头都需要独立的K和V矩阵,这在长序列、大批量的推理中非常消耗显存。在自回归推理中,Query 是动态变化的,而 Key 和 Value 是可以被缓存和重复使用的。共享 K/V 能够最大化地利用缓存,从而节省内存和计算。

GQA:group query attention [2023. 12, Google]

在这里插入图片描述

  • Llama 2 引入,llama3, qwen2 等都在使用
  • GQA旨在显著减少KV Cache的内存占用,同时保持接近MHA的性能。【速度和质量的平衡态】
  • 核心思想:
    • 它是一种介于MHA和MQA(见下文)之间的折中方案。
    • 将Q头分成g个组,每个组内的所有Q头共享同一份K和V头。
    • 例如,8个Q头可以分成4组,每2个Q头共享一份K和V。

MQA:multi-query attention(https://arxiv.org/pdf/2305.1324

http://www.dtcms.com/a/323992.html

相关文章:

  • 基于FFmpeg的B站视频下载处理
  • 组合数学覆盖设计阶段成果:C(12,4)的5组四元组覆盖C(12,3)所有三元组
  • 我如何从安全运维逆袭成企业CSO
  • (LeetCode 面试经典 150 题) 104. 二叉树的最大深度 (深度优先搜索dfs)
  • 鱼的游动+Compute Shader
  • 特征模理论中的特征值、模式重要性、特征角和模式权重系数的物理含义分别是什么?彼此间存在什么数学关系?如何用CST 仿真软件查看这些参数?
  • 一篇文章解决 Win10 同时部署多个版本的Tomcat
  • WiFi原理与WiFi安全
  • 【秋招笔试】2025.08.09美团秋招算法岗机考真题-第一题
  • C语言——深入理解指针(二)
  • JavaSE:入门
  • LeetCode 组合总数
  • 五种Excel表格导出方案
  • 40.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--扩展功能--集成网关--初始化网关
  • Pytorch深度学习框架实战教程-番外篇05-Pytorch全连接层概念定义、工作原理和作用
  • afsim2.9_使用QtCreator和VSCode编译
  • ShadowKV 机制深度解析:高吞吐长上下文 LLM 推理的 KV 缓存“影子”方案
  • GPT OSS深度解析:OpenAI时隔6年的开源模型,AI民主化的新里程碑?
  • FFmpeg实现音视频转码
  • Java 日常开发笔记(小程序页面交互传参-id)
  • ATF(TF-A)安全通告 TFV-13(CVE-2024-7881)
  • 《从零构建大语言模型》学习笔记4,注意力机制1
  • ubuntu22.04安装autoware.universe
  • 【YOLOv8改进 - C2f融合】C2f融合Outlook Attention:将细粒度特征编码到 token 中, 提高在图像分类和语义分割等任务中的性能
  • Docker Compose 部署高可用 MongoDB 副本集集群(含 Keepalived + HAProxy 负载均衡)
  • 106-基于Flask的重庆充电桩投建数据可视化分析系统
  • Spring Boot WebSocket实时在线人数统计
  • 从onnx模型到om模型的全自动化转化
  • Spring Boot集成WebSocket
  • Vue 3 的编译时优化如何改写 DOM 操作规则