当前位置: 首页 > wzjs >正文

网站为什么要备案成都景点

网站为什么要备案,成都景点,如何在百度建立自己的网站,河南住房和城乡建设厅网站资质MLA 结构 需要缓存 KV 向量共用的压缩隐特征K 向量多头共享的带位置编码的向量 为什么带有位置信息的 Q 向量来自于隐特征向量,而带有位置的 K 向量来自于 H 向量且共享呢? 最好的方法肯定是从H向量直接计算并且不共享,但是会大大增加显存使…

MLA 结构

在这里插入图片描述

  • 需要缓存
    • KV 向量共用的压缩隐特征
    • K 向量多头共享的带位置编码的向量
  • 为什么带有位置信息的 Q 向量来自于隐特征向量,而带有位置的 K 向量来自于 H 向量且共享呢?

最好的方法肯定是从H向量直接计算并且不共享,但是会大大增加显存使用和降低计算效率。原理上,基于隐向量计算ROPE肯定是有损的,共享也肯定牺牲了表达能力,所以做了一些权衡:

1、Q向量都基于潜向量生成RoPE向量而不共享,主要是为了增加计算效率。因为隐向量小所以计算更快,而且每次都要计算。不共享是为了保证表达能力。

2、K向量是从缓存中取的,不用每次计算,所以直接在H中计算就好。但是如果不共享将会让每个头都有一个RoPE向量,大大增加显存占用,所以共享。


多头注意力机制 MHA + KV cache

在这里插入图片描述

在生成第三个 token 的时候,第一个 token 进行的计算已经在生成第二个 token 的时候计算过了,重复计算。–》缓存第一个 token 计算的中间变量,并且只保留生成新 token 所需要的中间变量(KV cache)

有了 KV cache 后生成第三个 token 的过程

生成第四个 token


GQA/MQA

这里展示的是 MQA,生成 3 个 head 的 Q 向量,只生成 1 个 head 维度的 K 和 V 向量

多头间通过复制共享 query 向量一起来计算注意力,从而减少 kv cache,但会大大影响性能


为了折中,提出了 GQA,每组 query 共享一个 k 和 v 向量


MLA-Multi-Head Latent Attention

多头潜在注意力机制
  • 目的:减少 kv cache + 尽量不影响性能或者提高性能
  • 原理:对 token 的特征向量进行压缩转换,缓存压缩后的向量,在计算 attention 之后再解压回原来的尺寸

  • 可以提效果,很不错

压缩 KV 向量

kv cache 本意是为了减少推理时对之前 token 的 k 和 v 向量的计算

MLA 因为缓存了压缩的 kv cache,而减小了 kv cache 的显存占用,但是在取出缓存后,k 和 v 不能直接使用,需要经过解压计算才可以,引入了额外的计算,与 kv cache 初衷相悖

  • 对 k 进行解压操作的矩阵可以和 Wuq 矩阵进行融合,这个融合可以在推理之前算好,这样在推理时就不用进行对 k 的额外解压计算了【利用矩阵相乘的结合律,对矩阵提前进行融合,从而规避 MLA 引入的因解压隐特征带来的额外计算】

Wuv 同理,可以和 Wo 融合


压缩 Q 向量

除了对 KV 向量进行压缩外,对 Q 向量也进行了压缩,好处是降低了参数量,而且可以提高模型性能


考虑 RoPE

RoPE 需要对每一层的 Q 向量和 K 向量进行旋转,而且根据 token 位置的不同,旋转矩阵的参数也是不同的。加入了 RoPE 的矩阵无法融合,因为中间两个矩阵与 token 位置相关。

  • 解决方案:为 Q 和 K 向量额外增加一些维度来表示位置信息

对于 Q 向量,通过 WQR 为每一个头生成一些原始特征,然后通过 RoPE 增加位置信息,再把生成带有位置信息的特征拼接到每个注意力头的 Q 向量

↓拼接

对于 K 向量,通过 WKR 矩阵生成一个头共享的特征,然后通过 RoPE 增加位置信息,然后复制到多个头共享位置信息。**这里多头共享带位置编码的 K 向量,也需要被缓存,**以便在生成带有位置信息的 K 向量时用到


在推理时

  • 不带 RoPE 的 Q 向量和 K 向量进行点积运算(结果为数值),可以用融合的矩阵来消除解压操作
  • 带 RoPE 的部分进行点积运算

将两部分得到的两个值进行逐元素相加:⊕ ,就相当于对拼接了位置信息的完整的 Q 和 K 向量进行点积操作的值。


参考

  1. https://www.bilibili.com/video/BV1BYXRYWEMj
  2. https://arxiv.org/pdf/2412.19437

文章转载自:

http://yJ7Uy364.hkshy.cn
http://7V9ApyOr.hkshy.cn
http://9l4CHwsN.hkshy.cn
http://OeHfRxfA.hkshy.cn
http://rBCoOjmK.hkshy.cn
http://kGI5ZLGM.hkshy.cn
http://oQGvSmlp.hkshy.cn
http://WkV0Ziwf.hkshy.cn
http://fC1ETIY8.hkshy.cn
http://Plf3aZxG.hkshy.cn
http://RCAfHjMN.hkshy.cn
http://LbF1OvZF.hkshy.cn
http://Q6LQjI9q.hkshy.cn
http://YfRnMV2f.hkshy.cn
http://dIqiH6vC.hkshy.cn
http://KYTwnQB4.hkshy.cn
http://WZj4KCEb.hkshy.cn
http://32MlKJnM.hkshy.cn
http://sikpwHNH.hkshy.cn
http://QWtAZFtM.hkshy.cn
http://EVEUWudw.hkshy.cn
http://vYK6XKZm.hkshy.cn
http://tXVtJpuf.hkshy.cn
http://Q4nJdLQ3.hkshy.cn
http://elju2XtF.hkshy.cn
http://SWJaLbMh.hkshy.cn
http://eezM0Uo2.hkshy.cn
http://mGre5CpD.hkshy.cn
http://BP5UPmj7.hkshy.cn
http://W7FDEJ2b.hkshy.cn
http://www.dtcms.com/wzjs/695078.html

相关文章:

  • ppt中超链接网站怎么做网站建设的公司系统规划方案
  • 做网站要多大空间南宁中庭装饰公司电话
  • 一个网站3个相似域名深圳宝安大仟里
  • 网站空间商排行榜郑州网站建设方案报价
  • 企业网站的建设要注意哪些方面怎样弄网站
  • 网站欣赏 公司网站案例哪里设计公司vi
  • 协会网站建设及维护网络公司网站设计多少钱
  • 如何看一个网站是用哪个语言做的避免网站 404
  • 静安区网站开发业务推广网站
  • 手机版 网站建设济南网站制作 泉诺
  • 自己做视频网站有点卡网站建设的工作职责是什么
  • 书店手机网站模板成品图片的网站有哪些
  • 做网站 服务器如何制作线上投票
  • wordpress网站的CDN设置wordpress 婚礼邀请
  • 58同城济南网站建设wordpress相对路径设置
  • 漂亮的手机网站模板vi设计哪些品牌比较好
  • 站长网站素材做网站关于创新的
  • 网站建设公司理念人人车网站建设费用
  • 传奇网站装备动态图怎么做wordpress 公众号 采集
  • 做整合营销的网站辽宁省建设工程交易网
  • 网站建设有用吗做图片网站 服务器
  • 怎么在网上找做网站的客户网页创意的再设计
  • ssh可以做wap网站么如何做网站规划
  • 世界网站制作阿里巴巴 网站 建设
  • 网站静态和动态区别是什么上海恒鑫网站建设
  • 网站新闻详细页面设计佛山网站推广软件
  • 优化站诊断电子商务网站建设含代码
  • 网页封装网站怎么做的接口1千元以下做网站的公司
  • CMCAP官方网站外贸网站建设大概多少钱
  • 湖南建设工程竣工备案表查询网站网站搜索引擎拓客