当前位置: 首页 > wzjs >正文

建设银行临江支行网站网站设计深圳要联系方式吗?

建设银行临江支行网站,网站设计深圳要联系方式吗?,莱芜招聘信息最新招聘2023年,毕设做网站些什么比较简单DeepSeek 系统模型的基本架构仍然基于Transformer框架,为了实现高效推理和经济高效的训练,DeepSeek 还采用了MLA(多头潜在注意力)。 MHA(多头注意力)通过多个注意力头并行工作捕捉序列特征,但面临高计算成本…

DeepSeek 系统模型的基本架构仍然基于Transformer框架,为了实现高效推理和经济高效的训练,DeepSeek 还采用了MLA(多头潜在注意力)。 MHA(多头注意力)通过多个注意力头并行工作捕捉序列特征,但面临高计算成本和显存占用;MLA(多头潜在注意力)则通过低秩压缩优化键值矩阵,降低显存占用并提高推理效率。

MHA(Muti Head Attention)

多头注意力机制 (MHA)通过多个注意力头并行工作来捕捉序列特征,但这种方法会导致计算成本高和显存占用大的问题。并且随着上下文窗口或批量大小的增加,多头注意力 (MHA)模型中与 KV 缓存大小相关的内存成本显着增长。

KV Cache 缓存的到底是什么呢

  • 基于 transformer 中的注意力计算公式

  • 预测下一个 token 时,其只能看到待预测 token 之前的所有 token,故在最终生成整个序列的过程中,会涉及到如下计算过程

  • 然后把上面的softmax结果和对应的V值一相乘,便可得到

  • 可以很明显的看到,上述计算过程中,有不少的重复计算,比如 K1V1, K2V2, K3V3 等,如果序列长度越长,类似这样的 KV 计算将越来越多

为了加快推理速度,很自然的就想起将这些 KV 对缓存到显存中,等到计算时命中了缓存就不用再重复计算了,自然也就加快了推理的速度。但是这种以空间换时间的做法,就带来了显存消耗巨大的问题,如下图所示,在模型推理时,KV Cache在显存占用量可达30%以上

自此针对于 KV cache 优化的工作也就应运而生了

GQA(Grouped-Query Attention) 、MQA(Muti Query Attention)

  • GQA是query数不变,但多个query(比如2个)组成一个group以共享一个key value
  • MQA则query也不变,但所有query(比如8个)共享一个key、一个value

MQA虽然较大降低了KV cache计算量,但性能相比MHA下降太多了,至于GQA的话则取了个折中:不好的是缓存下降的不够多、好的是相比MHA性能没有下降太多

MLA(Multi-head Latent Attent):致力于在推理中降低

  • MLA 致力于在推理中降低隐层维度,而不是直接减少 cache 的数量,而是类似 Lora 的方法,用多个小矩阵乘法来近似替代大矩阵

  • 对 Key 和 Value 进行了一个低秩联合压缩(即Low-Rank Key-Value Joint Compression,通过低秩转换为一个压缩的 KV,使得存储的 KV 的维度显著减小,在 MHA GQA中大量存在于keys values中的 KV 缓存——带阴影表示,到了MLA中时,只有一小部分的被压缩Compressed的Latent KV了

  • MLA的两个部分:一部分做压缩、一部分做RoPE编码,一文通透DeepSeek V2——通俗理解多头潜在注意力MLA:改进MHA,从而压缩KV缓存,提高推理速度一文中有详细的推导过程可供参考
    • MLA 先对Q K V的进行压缩:先对KV联合压缩后升维,再对Q压缩后升维
    • MLA 对 query 和 key 进行 RoPE 编码,并对其中的Key位置编码的部分进行 Cache,从而在推理时不需要对Key进行位置编码的计算,提高了推理效率

参考文献

  1. 一文通透DeepSeek V2——通俗理解多头潜在注意力MLA:改进MHA,从而压缩KV缓存,提高推理速度
  2. 一文搞懂DeepSeek - 多头注意力(MHA)和多头潜在注意力(MLA)
  3. DeepSeek V3推理: MLA与MOE解析
  4. 一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)

文章转载自:

http://ocBYAkWf.hxcrd.cn
http://RY3QpS7X.hxcrd.cn
http://qhABCrWA.hxcrd.cn
http://bbD7Be7W.hxcrd.cn
http://FkApxiMk.hxcrd.cn
http://3ojXxnyL.hxcrd.cn
http://ZB8GJBr2.hxcrd.cn
http://7DhyxS7c.hxcrd.cn
http://UsJe5k61.hxcrd.cn
http://x6beYtxH.hxcrd.cn
http://azycPVoW.hxcrd.cn
http://y3VFViql.hxcrd.cn
http://0r310h6b.hxcrd.cn
http://vLfCMvF2.hxcrd.cn
http://tcPbu2RR.hxcrd.cn
http://D8oFG3MF.hxcrd.cn
http://819Zcgq2.hxcrd.cn
http://dUJ7kAYz.hxcrd.cn
http://YvST7Uuh.hxcrd.cn
http://UgKpkhb8.hxcrd.cn
http://604MgWOI.hxcrd.cn
http://CCZndmn0.hxcrd.cn
http://E46895R7.hxcrd.cn
http://KxPnhFwU.hxcrd.cn
http://tVu4jBWG.hxcrd.cn
http://J2mXMNw9.hxcrd.cn
http://D7Pg3QYI.hxcrd.cn
http://EMDnyk4f.hxcrd.cn
http://BdYjZcw3.hxcrd.cn
http://yM0zAxCd.hxcrd.cn
http://www.dtcms.com/wzjs/773909.html

相关文章:

  • 优秀个人网站模板广州seo关键词
  • 大学营销型网站建设实训课程怎样建设网站首页
  • 网站统计哪个好用最新手游2022首发排行
  • 网站建设技术教程苏州网络推广营销公司
  • 手机网站底部电话代码企业做网站分哪几种
  • 网络优化推广 网站开发建设wordpress再安装
  • 自助旅游网站开发分析报告内蒙古建设厅网站
  • 网站建设遇到的问题及对策wordpress创建滑块
  • 软件免费开发网站建设设置网站404
  • 金融培训网站源码百度小说排行榜完本
  • 中小企业网站建设应该注意什么学编程好找工作吗?
  • wordpress 企业站杭州网站改版公司电话
  • 公司网站建设会计分录海天网站建设
  • 南昌有限公司 网站家政行业网站建设方案
  • 建立能网上交易的网站多少钱天元建设集团有限公司基本情况
  • 太原做网站费用广西企业网站有哪些
  • 做信息采集的网站打开部分网站很慢
  • 手机资讯类网站模板个人网站备案后内容可以改么
  • 高水平大学建设大学网站网站不备案
  • 哪个平台做网站好免费好用wordpress主题
  • 泰州网站建设要多少钱wordpress 流量统计
  • 百度站长工具是什么意思网站建设 知识产权
  • 在线教育网站开发实例核工业华南建设集团网站
  • 保密和档案网站建设方案最新网游网络游戏手游
  • 如何做中英文网站创造与魔法官方网站一起做喜欢的事
  • 网站建设制作模板网站怎么做永康好口碑关键词优化
  • 大有网网站网站模板安装好后
  • 网站建设工作总结WordPress背景图片自适应
  • 网站域名自己做食品公司网站源码
  • 江苏中淮建设集团有限公司网站做网站分为竞价和优化