当前位置: 首页 > news >正文

大模型-Attention面试

目录

    • 1 传统 Attention 存在哪些问题?
    • 2 Attention 优化方向
    • 3 Attention 变体有哪些?
    • 4 Multi-Query Attention 篇
      • 4.1 Multi-head Attention 存在什么问题?
      • 4.2 介绍一下 Multi-Query Attention?
      • 4.3 对比-下Multi-head Attention 和 Multi-Query Attention?
      • 4.4 Multi-Query Attention 这样做的好处是什么?
      • 4.5 有哪些模型是使用 Multi-Query Attention ?
    • 5 Grouped-query Attention
      • 5.1 什么是 Grouped-query Attention?
      • 5.2 有哪些大模型使用 Grouped-query Attention ?
    • 6 FlashAttention
    • 7 并行 Transformer Block

1 传统 Attention 存在哪些问题?

  1. 传统 Attention 存在上下文长度约束问题;
  2. 传统 Attention 速度慢,内存占用大;

2 Attention 优化方向

  1. 提升上下文长度
  2. 加速、减少内存占用

3 Attention 变体有哪些?

  • 稀疏 attention:将稀疏偏差引入 attention 机制可以降低了复杂性;
  • 线性化 attention:解开 attention 矩阵与内核特征图,然后以相反的顺序计算 attention 以实现线性复杂度;
  • 原型和内存压缩:这类方法减少了查询或键值记忆对的数量,以减少注意力矩阵的大小;
  • 低阶 self-Attention:这一系列工作捕获了 self-Attention 的低阶属性;
  • Attention 与先验:该研究探索了用先验 attention 分布来补充或替代标准 attention;
  • 改进多头机制:该系列研究探索了不同的替代多头机制。

4 Multi-Query Attention 篇

4.1 Multi-head Attention 存在什么问题?

  • 训练过程:不会显著影响训练过程,训练速度不变,会引起非常细微的模型效果损失;
  • 推理过程:反复加载巨大的 KV cache,导致内存开销大,性能是内存受限;

4.2 介绍一下 Multi-Query Attention?

Multi-Query Attention 在所有注意力头上共享 key 和 value。
在这里插入图片描述

4.3 对比-下Multi-head Attention 和 Multi-Query Attention?

  • Multi-head Attention:每个注意力头都有各自的query、key和value。
  • Multi-query Attention:在所有的注意力头上共享key和value。
    在这里插入图片描述
    Falcon、PaLM、ChatGLM2-6B 都使用了 Multi-query Attention,但有细微差别。
  • 为了保持参数量一致
    • Falcon:把隐藏维度从 4096 增大到了 4544。多余的参数量分给了 Attention 块和 FFN 块
    • ChatGLM2:把 FFN 中间维度从 11008 增大到了 13696。多余的参数分给了 FFN 块

4.4 Multi-Query Attention 这样做的好处是什么?

减少 KV cache 的大小,减少显存占用,提升推理速度。

4.5 有哪些模型是使用 Multi-Query Attention ?

  • 代表模型:PaLM、ChatGLM2、Falcon 等

5 Grouped-query Attention

5.1 什么是 Grouped-query Attention?

Grouped query attention:介于 multi head 和 multi query 之间,多个 key 和 value。

5.2 有哪些大模型使用 Grouped-query Attention ?

ChatGLM2、LLaMA2-70B 使用了 Grouped query attention。

6 FlashAttention

  • 核心:用分块 softmax 等价替代传统 softmax
  • 优点:节约 HBM,高效利用 SRAM,省显存,提速度
  • 代表模型:Meta 推出的开源大模型 LLaMA,阿联酋推出的开源大模型 Falcon 都使用了 Flash Attention 来加速计算和节省显存
  • 关键词:HBM、SRAM、分块 Softmax、重计算、Kernel 融合。

7 并行 Transformer Block

用并行公式替换了串行,提升了 15% 的训练速度。

  • 在 8B 参数量规模,会有轻微的模型效果损失
  • 在 62B 参数量规模,就不会损失模型效果

Falcon、PaLM 都使用了该技术来加速训练
在这里插入图片描述

http://www.dtcms.com/a/389487.html

相关文章:

  • Hadoop3.3.5搭建指南(简约版)
  • Python运算符与表达式
  • “双碳”目标下,塔能科技如何用“物联网精准节能”重塑城市能源生态?
  • 格恩朗气体涡轮流量计:精准计量每一方气,守护能源高效利用
  • 从感知机到多层感知机:深度学习入门核心知识解析
  • 从Java ArrayList 学习泛型设计
  • 【Amber报错1】 Amber/Miniconda 与系统 Bash 的 libtinfo.so.6冲突
  • AI智慧能力的核心引擎,自注意力机制
  • 35、模型量化与压缩实践
  • LeetCode 16.最接近的三数之和
  • 深入解析Redis集群模式:构建高可用与可扩展的缓存系统
  • 小麦病害检测识别数据集:1k图像,4类,yolo标注
  • Python读取excel表格并写入数据库
  • 【LeetCode 每日一题】1317. 将整数转换为两个无零整数的和
  • 论文投稿信(Cover Letter)
  • WPF——DataGrid
  • 物联网智能电表平台:所有电表数据,集中到一个系统管
  • Python自学19-Python操作Word和PowerPoint文件
  • Android使用GPU指南
  • 贪心算法应用:装箱问题(BFD算法)详解
  • 如何入门到实战策略学习ETF期权?
  • 贪心算法应用:最小反馈顶点集问题详解
  • 物联网与智能体:下一代数字化生态的关键
  • 关于lvs+keeplived在mysql分库分上负载部署
  • Springboot获取bean的工具类
  • C++学习日记
  • DRAM的原理
  • Ansible插件开发
  • ubuntu 两个网卡进行映射
  • 通信高效的数据并行分布式深度学习-综述-图表解读