当前位置: 首页 > news >正文

DeepSeekV3-MOE

目录

DeepSeek-V3-Multi-Head Latent Attention

DeepSeekMoE

Complementary Sequence-Wise Auxiliary Loss.

专家激活次数(公式 18)

专家总贡献(公式 20)

整体逻辑与目标


DeepSeek-V3-Multi-Head Latent Attention

DeepSeek-V3对keys和values采用了low-raw联合压缩来降低Key-Value缓存(在推理侧):

W^{DKV}是下采样矩阵,其中c_t^{KV} \in R^{d_c}是对k和v的压缩latent vectors,其中dc远小于dn*nh,

W^{UK}, W^{UV}是上采样矩阵。

这样只需要缓存蓝色的向量,来降低缓存cache。

同理,对query也进行下采样,

可以降低训练时的激活内存(通过低秩投影减少了中间特征向量的维度,从而降低了存储这些临时激活值所需的内存开销)。

DeepSeekMoE

其中N_s是共享塔的数量,N_r是专家塔的数量。

每个token选择分数最高的K个。

与DeepSeek-V2相比,DeepSeek-V3先归一化再使用sigmoid函数来计算affinity scores。

Complementary Sequence-Wise Auxiliary Loss.

序列级别的负载均衡,:尽管 DeepSeek-V3 主要依赖无辅助损失策略实现负载均衡,但为防止单个序列内出现极端不平衡,我们还采用了一种互补的序列级平衡损失:

专家激活次数(公式 18)

(f_i = \sum_{t=1}^{T} \mathbb{I}\left( s_{i,t} \in \text{Topk}(\{s_{j,t} \mid 1 \leqslant j \leqslant N_r\}, K_r) \right)

  • 作用:统计第i个专家在当前序列中被选入 “Top-K 激活集” 的总次数。

专家总贡献(公式 20)

P_i = \sum_{t=1}^{T} s'_{i,t}

  • 作用:计算第i个专家在当前序列中所有令牌上的 “归一化贡献总和”,反映该专家对整个序列的累计影响。

整体逻辑与目标

序列级平衡损失\mathcal{L}_{\text{Bal}}通过计算f_i(激活次数)与P_i(总贡献)的乘积之和,实现两个目标:

  1. 若某专家f_i(激活次数)过高,且P_i(总贡献)也过高,会导致f_i P_i增大,损失上升,倒逼模型减少对该专家的依赖。
  2. 反之,若专家被激活次数少f_i小),即使贡献高P_i大),乘积也较小,损失影响有限,避免抑制高效专家。

http://www.dtcms.com/a/599050.html

相关文章:

  • 软文网站推广wordpress 添加视频
  • 杭州网站设计公司哪个好百度关键词怎么优化
  • 网站上怎样做轮播图珠宝钻石网站建站
  • 数据结构入门 (十):“左小右大”的秩序 —— 深入二叉搜索树
  • 能不能模仿百度一样做搜索引擎网站php网站开发职责
  • 如果做局域网影音网站企业服务中心抖音
  • 常见购物网站功能丹东建设银行网站
  • 徐州建网站网站界面设计形考
  • 最新电大网站开发维护WORDPRESS摘要无效
  • 高端定制网站开发买空间哪个网站好
  • Linux 内存管理 (5):buddy 内存分配简要流程
  • C++ 高精度计算:突破数据类型限制的实现与应用
  • 学做招投标的网站上传空间站的注意事项
  • 黑马JAVAWeb -Vue工程化 - Element Plus- 表格-分页条-中文语言包-对话框-Form表单
  • 甘州区建设局网站wordpress谷歌广告
  • 纪检网站建设动态主题国内建站平台
  • 网站页面的大小写国内seo服务商
  • 如何在关键里程碑已延迟的情况下重新规划项目进度
  • 排版好看的网站界面湖北企业响应式网站建设价位
  • 光伏电站运维-可视化大屏带来的便利
  • 张家港保税区建设规划局网站商标注册查询官网入口官方
  • MySQL 四种隔离级别:从脏读到幻读的全过程
  • 人才网网站建设方案河北建设工程信息网登陆
  • 网站后台不能上传做网站主机选择
  • 网站开发与管理课程设计心得坛墨网站建设
  • 阿里巴巴做网站难吗南京谷歌seo
  • 当 AI 工作流需要“人类智慧“:深度解析 Microsoft Agent Framework 的人工接入机制
  • Linux 内存管理 (3):fixmap
  • 一个视频多平台发布天津网站seo策划
  • 数据管理战略|3数据管理成功的预期衡量标准|螺旋上升