当前位置：首页 > news >正文

大模型-Attention面试

news 2025/9/19 7:35:10

目录

- 1 传统 Attention 存在哪些问题？
- 2 Attention 优化方向
- 3 Attention 变体有哪些？
- 4 Multi-Query Attention 篇
- - 4.1 Multi-head Attention 存在什么问题？
  - 4.2 介绍一下 Multi-Query Attention？
  - 4.3 对比-下Multi-head Attention 和 Multi-Query Attention?
  - 4.4 Multi-Query Attention 这样做的好处是什么？
  - 4.5 有哪些模型是使用 Multi-Query Attention ？
- 5 Grouped-query Attention
- - 5.1 什么是 Grouped-query Attention？
  - 5.2 有哪些大模型使用 Grouped-query Attention ？
- 6 FlashAttention
- 7 并行 Transformer Block

1 传统 Attention 存在哪些问题？

传统 Attention 存在上下文长度约束问题；
传统 Attention 速度慢，内存占用大；

2 Attention 优化方向

提升上下文长度
加速、减少内存占用

3 Attention 变体有哪些？

稀疏 attention：将稀疏偏差引入 attention 机制可以降低了复杂性；
线性化 attention：解开 attention 矩阵与内核特征图，然后以相反的顺序计算 attention 以实现线性复杂度；
原型和内存压缩：这类方法减少了查询或键值记忆对的数量，以减少注意力矩阵的大小；
低阶 self-Attention：这一系列工作捕获了 self-Attention 的低阶属性；
Attention 与先验：该研究探索了用先验 attention 分布来补充或替代标准 attention；
改进多头机制：该系列研究探索了不同的替代多头机制。

4 Multi-Query Attention 篇

4.1 Multi-head Attention 存在什么问题？

训练过程：不会显著影响训练过程，训练速度不变，会引起非常细微的模型效果损失；
推理过程：反复加载巨大的 KV cache，导致内存开销大，性能是内存受限；

4.2 介绍一下 Multi-Query Attention？

Multi-Query Attention 在所有注意力头上共享 key 和 value。
在这里插入图片描述

4.3 对比-下Multi-head Attention 和 Multi-Query Attention?

Multi-head Attention:每个注意力头都有各自的query、key和value。
Multi-query Attention:在所有的注意力头上共享key和value。

Falcon、PaLM、ChatGLM2-6B 都使用了 Multi-query Attention，但有细微差别。

为了保持参数量一致：
- Falcon：把隐藏维度从 4096 增大到了 4544。多余的参数量分给了 Attention 块和 FFN 块
- ChatGLM2：把 FFN 中间维度从 11008 增大到了 13696。多余的参数分给了 FFN 块

4.4 Multi-Query Attention 这样做的好处是什么？

减少 KV cache 的大小，减少显存占用，提升推理速度。

4.5 有哪些模型是使用 Multi-Query Attention ？

代表模型：PaLM、ChatGLM2、Falcon 等

5 Grouped-query Attention

5.1 什么是 Grouped-query Attention？

Grouped query attention：介于 multi head 和 multi query 之间，多个 key 和 value。

5.2 有哪些大模型使用 Grouped-query Attention ？

ChatGLM2、LLaMA2-70B 使用了 Grouped query attention。

6 FlashAttention

核心：用分块 softmax 等价替代传统 softmax
优点：节约 HBM，高效利用 SRAM，省显存，提速度
代表模型：Meta 推出的开源大模型 LLaMA，阿联酋推出的开源大模型 Falcon 都使用了 Flash Attention 来加速计算和节省显存
关键词：HBM、SRAM、分块 Softmax、重计算、Kernel 融合。

7 并行 Transformer Block

用并行公式替换了串行，提升了 15% 的训练速度。

在 8B 参数量规模，会有轻微的模型效果损失
在 62B 参数量规模，就不会损失模型效果

Falcon、PaLM 都使用了该技术来加速训练
在这里插入图片描述

http://www.dtcms.com/a/389487.html

相关文章：

Hadoop3.3.5搭建指南(简约版)

Python运算符与表达式

“双碳”目标下，塔能科技如何用“物联网精准节能”重塑城市能源生态？

格恩朗气体涡轮流量计：精准计量每一方气，守护能源高效利用

从感知机到多层感知机：深度学习入门核心知识解析

从Java ArrayList 学习泛型设计

【Amber报错1】 Amber/Miniconda 与系统 Bash 的 libtinfo.so.6冲突

AI智慧能力的核心引擎，自注意力机制

35、模型量化与压缩实践

LeetCode 16.最接近的三数之和

深入解析Redis集群模式：构建高可用与可扩展的缓存系统

小麦病害检测识别数据集：1k图像，4类，yolo标注

Python读取excel表格并写入数据库

【LeetCode 每日一题】1317. 将整数转换为两个无零整数的和

论文投稿信(Cover Letter)

WPF——DataGrid

物联网智能电表平台：所有电表数据，集中到一个系统管

Python自学19-Python操作Word和PowerPoint文件

Android使用GPU指南

贪心算法应用：装箱问题(BFD算法)详解

如何入门到实战策略学习ETF期权？

贪心算法应用：最小反馈顶点集问题详解

物联网与智能体：下一代数字化生态的关键

关于lvs+keeplived在mysql分库分上负载部署

Springboot获取bean的工具类

C++学习日记

DRAM的原理

Ansible插件开发

ubuntu 两个网卡进行映射

通信高效的数据并行分布式深度学习-综述-图表解读