当前位置: 首页 > wzjs >正文

从哪些方面建设网站周至做网站的公司

从哪些方面建设网站,周至做网站的公司,青岛网站开发公司电话,google谷歌搜索大模型学习笔记------Llama 3模型架构之分组查询注意力(GQA) 1、分组查询注意力(GQA)的动机2、 多头注意力(Multi-Head Attention, MHA)3、 多查询注意力 (Multi-Query Attention,MQA)4、 分组查…

大模型学习笔记------Llama 3模型架构之分组查询注意力(GQA)

    • 1、分组查询注意力(GQA)的动机
    • 2、 多头注意力(Multi-Head Attention, MHA)
    • 3、 多查询注意力 (Multi-Query Attention,MQA)
    • 4、 分组查询注意力(Grouped-Query Attention, GQA)
    • 5、 多头注意力 (MHA) 、多查询注意力 (MQA)、分组查询注意力 (GQA)对比

    上文简单介绍了 Llama 3模型架构的旋转位置编码(Rotary Position Embedding,RoPE)。本文介绍Llama 3模型的最后一个网络结构相关知识:Llama 3模型架构之分组查询注意力(Grouped-Query Attention, GQA)。实际上。在Llama 2就已经使用GQA注意力机制了。GQA是Transformer模型注意力机制的重要改进,旨在平衡计算效率与模型表现。其核心设计理念可概括为:“分组共享键值对,独立保留查询向量”。

1、分组查询注意力(GQA)的动机

    Llama 3为什么采用GQA注意力机制呢?其实道理很简单,在大模型训练与推理过程中需要在保障准确率的基础上尽可能的减少计算量,减少参数数量,提高效率。这个怎样理解呢?论文里其实也提到了这个问题。主要是对比了多头注意力(Multi-Head Attention, MHA)和多查询注意力 (Multi-Query Attention,MQA)。具体三中方式的结构如下图所示:
在这里插入图片描述

2、 多头注意力(Multi-Head Attention, MHA)

    多头注意力(Multi-Head Attention, MHA)是一种在Transformer架构中广泛使用的注意力机制,具体结构如上图A。它通过并行地使用多个注意力头来捕捉输入序列中不同的特征,增强模型的表达能力。多头注意力的基本思想是将输入的查询(Query,Q)、键(Key,K)和值(Value,V)向量通过多个注意力头进行并行处理,然后将结果拼接在一起,得到最终的输出。每个注意力头在不同的子空间中学习数据的不同特征,使得模型能够更好地理解复杂的输入。具体原理如下所示:

    1)查询(Query,Q)、键(Key,K)和值(Value,V)的向量表示

在这里插入图片描述
其中, 在这里插入图片描述在这里插入图片描述在这里插入图片描述分别是查询、键和值的投影矩阵。

    2)自注意力计算
在这里插入图片描述
其中, 在这里插入图片描述为查询和键向量的维度。

    3)多头组合
在这里插入图片描述在这里插入图片描述
    通过多个注意力头并行处理,MHA能够从不同角度关注输入数据中的信息,捕捉到更丰富的上下文关系。MHA的设计使得可以在硬件加速上,同时计算多个关注头,提高了计算效率。

3、 多查询注意力 (Multi-Query Attention,MQA)

    多查询注意力(Multi-Query Attention, MQA)旨在提高注意力的效率并降低计算复杂度。相较于传统的多头注意力(Multi-Head Attention, MHA),MQA的设计采用了多个查询头,但共享相同的键和值,这使得计算更为高效,具体结构如上图B。具体计算原理如下步骤:

    1)查询向量
在这里插入图片描述
    2)共享的键和值向量
在这里插入图片描述
    3)自注意力计算
在这里插入图片描述
    4)组合
在这里插入图片描述

4、 分组查询注意力(Grouped-Query Attention, GQA)

    分组查询注意力(Grouped-Query Attention, GQA)旨在通过将查询分组来提升计算效率并增强模型的能力。与多头注意力和多查询注意力相比,GQA通过将查询分成多个组并为每组独立计算注意力来优化注意力计算过程。具体结构如上图C,计算步骤如下所示:
1)查询向量:
在这里插入图片描述
2)分组的键和值向量:
将总计N个注意力头划分为G组,每组共享相同的键和值投影:

在这里插入图片描述
3)组内自注意力计算:
在这里插入图片描述
4)组合:
在这里插入图片描述

5、 多头注意力 (MHA) 、多查询注意力 (MQA)、分组查询注意力 (GQA)对比

    这几种注意力机制有各自的特点,具体如下所示:

维度多头注意力 (MHA)多查询注意力 (MQA)分组查询注意力 (GQA)
查询数量多个独立的查询多个共享查询分组查询,部分独立
键和值每个头独立的键和值共享相同的键和值共享或独立的键值
计算复杂度较高较低灵活调节,适中
应用场景广泛小查询任务大规模模型优化

文章转载自:

http://aLY1Aj9t.ndzhL.cn
http://01T6QAoC.ndzhL.cn
http://VBbmmprp.ndzhL.cn
http://zyIXgMPa.ndzhL.cn
http://ER4vK4nL.ndzhL.cn
http://iGY2NZaI.ndzhL.cn
http://WwMBjie5.ndzhL.cn
http://nBksWKZo.ndzhL.cn
http://wwfyKrlA.ndzhL.cn
http://M7nc8JVL.ndzhL.cn
http://QmG71A86.ndzhL.cn
http://Vk60uPmm.ndzhL.cn
http://V49jabhL.ndzhL.cn
http://E0c7YRCB.ndzhL.cn
http://IzhjK433.ndzhL.cn
http://lOhqTd1D.ndzhL.cn
http://RZON4JCK.ndzhL.cn
http://4h5TxsSp.ndzhL.cn
http://HOvx9WEc.ndzhL.cn
http://JwBXETzi.ndzhL.cn
http://k0fLNBwi.ndzhL.cn
http://00Ci5l9y.ndzhL.cn
http://htLsscoI.ndzhL.cn
http://dfilwQE8.ndzhL.cn
http://bt2QWXCY.ndzhL.cn
http://oH6lGalR.ndzhL.cn
http://BGKcgSMG.ndzhL.cn
http://EvWMazrA.ndzhL.cn
http://F5alMKeV.ndzhL.cn
http://5X54RlNL.ndzhL.cn
http://www.dtcms.com/wzjs/642350.html

相关文章:

  • 上海网站建设服务电话只做网站不做app
  • 站群网站和做seo那个号上海做网站站优云一一十七
  • 网站备案主体信息变更湖北网站seo设计
  • 漳州市网站建设网站建设步骤和流程
  • 苏州建设交通学校网站logo智能设计
  • 泉州做网站建设聊城做网站的公司咨询
  • 做网上商城网站设计茶叶网站建设策划书ppt
  • 北京网站关键词排名推广响水做网站
  • 禄丰网站建设濮阳网站建设网站
  • 学校实验室网站建设现状小企业想做网站推广找哪家强
  • 注册个人网站要多少钱深圳做公司英文网站多少钱
  • 免费ai写作网站3000字群排名优化软件
  • 坚持网站机制建设个人网站建设基本教程
  • 合肥网站建设怎么做河南建设人才教育信息网
  • 搭建网站多少钱8一9岁的手工
  • 内蒙古自治区生态文明建设网站2017网站开发薪资
  • 延安免费做网站网站排名软件利搜怎么样
  • 京鑫建设集团网站网站建设属于硬件还是软件
  • 织梦做小游戏网站织梦网站统计代码
  • 想在网站卖房怎么做怎么创建二级域名
  • 毕业设计做视频网站设计师服务平台下载不了
  • 商城类网站主要分为哪些模块wordpress文章内图片不显示
  • 宁波建网站找哪家网站平台建设设备清单
  • 做一下网站需要什么矢量网站动画怎么做
  • 网站建设与制作培训通知布吉附近网站建设公司
  • 佛山网站运营十年乐云seo佛山市禅城网站建设公司
  • 搭建网站需要什么技术wordpress三合一模板
  • 国外域名抢注网站中国建设银行官方网站纪念币
  • 数字营销1+x网站虚拟主机网站
  • 公司怎么注册自己的网站杭州企业网站制作