当前位置: 首页 > wzjs >正文

北京移动端网站湖南还没有建网站的企业

北京移动端网站,湖南还没有建网站的企业,wordpress投票类主题,网站头部导航样式MLA 结构 需要缓存 KV 向量共用的压缩隐特征K 向量多头共享的带位置编码的向量 为什么带有位置信息的 Q 向量来自于隐特征向量,而带有位置的 K 向量来自于 H 向量且共享呢? 最好的方法肯定是从H向量直接计算并且不共享,但是会大大增加显存使…

MLA 结构

在这里插入图片描述

  • 需要缓存
    • KV 向量共用的压缩隐特征
    • K 向量多头共享的带位置编码的向量
  • 为什么带有位置信息的 Q 向量来自于隐特征向量,而带有位置的 K 向量来自于 H 向量且共享呢?

最好的方法肯定是从H向量直接计算并且不共享,但是会大大增加显存使用和降低计算效率。原理上,基于隐向量计算ROPE肯定是有损的,共享也肯定牺牲了表达能力,所以做了一些权衡:

1、Q向量都基于潜向量生成RoPE向量而不共享,主要是为了增加计算效率。因为隐向量小所以计算更快,而且每次都要计算。不共享是为了保证表达能力。

2、K向量是从缓存中取的,不用每次计算,所以直接在H中计算就好。但是如果不共享将会让每个头都有一个RoPE向量,大大增加显存占用,所以共享。


多头注意力机制 MHA + KV cache

在这里插入图片描述

在生成第三个 token 的时候,第一个 token 进行的计算已经在生成第二个 token 的时候计算过了,重复计算。–》缓存第一个 token 计算的中间变量,并且只保留生成新 token 所需要的中间变量(KV cache)

有了 KV cache 后生成第三个 token 的过程

生成第四个 token


GQA/MQA

这里展示的是 MQA,生成 3 个 head 的 Q 向量,只生成 1 个 head 维度的 K 和 V 向量

多头间通过复制共享 query 向量一起来计算注意力,从而减少 kv cache,但会大大影响性能


为了折中,提出了 GQA,每组 query 共享一个 k 和 v 向量


MLA-Multi-Head Latent Attention

多头潜在注意力机制
  • 目的:减少 kv cache + 尽量不影响性能或者提高性能
  • 原理:对 token 的特征向量进行压缩转换,缓存压缩后的向量,在计算 attention 之后再解压回原来的尺寸

  • 可以提效果,很不错

压缩 KV 向量

kv cache 本意是为了减少推理时对之前 token 的 k 和 v 向量的计算

MLA 因为缓存了压缩的 kv cache,而减小了 kv cache 的显存占用,但是在取出缓存后,k 和 v 不能直接使用,需要经过解压计算才可以,引入了额外的计算,与 kv cache 初衷相悖

  • 对 k 进行解压操作的矩阵可以和 Wuq 矩阵进行融合,这个融合可以在推理之前算好,这样在推理时就不用进行对 k 的额外解压计算了【利用矩阵相乘的结合律,对矩阵提前进行融合,从而规避 MLA 引入的因解压隐特征带来的额外计算】

Wuv 同理,可以和 Wo 融合


压缩 Q 向量

除了对 KV 向量进行压缩外,对 Q 向量也进行了压缩,好处是降低了参数量,而且可以提高模型性能


考虑 RoPE

RoPE 需要对每一层的 Q 向量和 K 向量进行旋转,而且根据 token 位置的不同,旋转矩阵的参数也是不同的。加入了 RoPE 的矩阵无法融合,因为中间两个矩阵与 token 位置相关。

  • 解决方案:为 Q 和 K 向量额外增加一些维度来表示位置信息

对于 Q 向量,通过 WQR 为每一个头生成一些原始特征,然后通过 RoPE 增加位置信息,再把生成带有位置信息的特征拼接到每个注意力头的 Q 向量

↓拼接

对于 K 向量,通过 WKR 矩阵生成一个头共享的特征,然后通过 RoPE 增加位置信息,然后复制到多个头共享位置信息。**这里多头共享带位置编码的 K 向量,也需要被缓存,**以便在生成带有位置信息的 K 向量时用到


在推理时

  • 不带 RoPE 的 Q 向量和 K 向量进行点积运算(结果为数值),可以用融合的矩阵来消除解压操作
  • 带 RoPE 的部分进行点积运算

将两部分得到的两个值进行逐元素相加:⊕ ,就相当于对拼接了位置信息的完整的 Q 和 K 向量进行点积操作的值。


参考

  1. https://www.bilibili.com/video/BV1BYXRYWEMj
  2. https://arxiv.org/pdf/2412.19437

文章转载自:

http://gW4oa5RM.wfzLt.cn
http://61CW9qRz.wfzLt.cn
http://HZLYfMTs.wfzLt.cn
http://MayhXqR0.wfzLt.cn
http://hKbD3Keu.wfzLt.cn
http://ziOWXO5a.wfzLt.cn
http://DkIQpyhC.wfzLt.cn
http://qa2XkCsT.wfzLt.cn
http://iEcacIXB.wfzLt.cn
http://e1tStYnB.wfzLt.cn
http://DCfUSZBi.wfzLt.cn
http://8hE8VsNJ.wfzLt.cn
http://9iPMXsEF.wfzLt.cn
http://vprV4NgU.wfzLt.cn
http://sTYDJ18P.wfzLt.cn
http://CG0aBwIw.wfzLt.cn
http://s5Js1VS4.wfzLt.cn
http://OtztiCT6.wfzLt.cn
http://trbhMYSr.wfzLt.cn
http://D3xEYf3q.wfzLt.cn
http://AmLX5TS0.wfzLt.cn
http://4WLkJW1O.wfzLt.cn
http://f7jQBTut.wfzLt.cn
http://JiU72zln.wfzLt.cn
http://tLGVKw6l.wfzLt.cn
http://YEzSsa2p.wfzLt.cn
http://7QgYLBqX.wfzLt.cn
http://SDwScrpT.wfzLt.cn
http://GqPcEQUW.wfzLt.cn
http://AWvpxC0P.wfzLt.cn
http://www.dtcms.com/wzjs/629158.html

相关文章:

  • 嘉兴市住房和城乡建设局网站vi设计怎么做
  • 网站跳出率一般多少空间设计师
  • 免费优化网站的软件个人社保缴费应交多少
  • 花垣县建设局网站WordPress打开有广告
  • 中国建筑股票成都搜索引擎优化推广维护
  • 网站 规划方案外链优化
  • 网站链接跳转如何做做网站被坑
  • 自己做菠菜网站昆山建设局网站表格下
  • 哪些网站是由wordpress做的性价比最高网站建设哪里好
  • 梧州做网站网页设计师行业分析
  • 万网 网站建设南县网站设计
  • 外地公司做的网站能备案网络服务提供者发现未成年人
  • 怎么建设淘客自己的网站_wordpress 代码臃肿
  • 手机网站php开发用手机搭建wordpress
  • 正邦设计广州分公司北京seo公司哪家好
  • 做一个和淘宝一样的网站要多少钱app开发定制公司哪家
  • 做包装设计的网站网站备案管理系统网站
  • 报名系统网站开发天猫网站平面广告
  • 门户网站建设定制中国形象设计网
  • 南通网站定制方案建网站卖多少钱
  • 网站开发具体的工作内容网站后台编辑器下载
  • 仿阿里百秀网站模板网站模板抄袭
  • 电子商务网站开发指南网站建设与规划实验总结
  • 南昌网站建设WordPress与其它
  • 湛江外包做网站wordpress 视频边栏
  • 关于做书的网站做企业网站的架构图
  • 哪个网站有淘宝做图的素材WordPress换域名更新
  • 重庆展示型网站制作上海发布首页
  • 网站色彩的应用建设工商联网站的意义
  • 统计网站访客人数天猫购物商城