当前位置：首页 > news >正文

DeepSeekV3-MOE

news 2025/11/12 16:15:30

DeepSeek-V3-Multi-Head Latent Attention

DeepSeekMoE

Complementary Sequence-Wise Auxiliary Loss.

专家激活次数（公式 18）

专家总贡献（公式 20）

整体逻辑与目标

DeepSeek-V3-Multi-Head Latent Attention

DeepSeek-V3对keys和values采用了low-raw联合压缩来降低Key-Value缓存（在推理侧）：

$W^{DKV}$ 是下采样矩阵，其中 $c_t^{KV} \in R^{d_c}$ 是对k和v的压缩latent vectors，其中dc远小于dn*nh，

$W^{UK}, W^{UV}$ 是上采样矩阵。

这样只需要缓存蓝色的向量，来降低缓存cache。

同理，对query也进行下采样，

可以降低训练时的激活内存（通过低秩投影减少了中间特征向量的维度，从而降低了存储这些临时激活值所需的内存开销）。

DeepSeekMoE

其中 $N_s$ 是共享塔的数量， $N_r$ 是专家塔的数量。

每个token选择分数最高的K个。

与DeepSeek-V2相比，DeepSeek-V3先归一化再使用sigmoid函数来计算affinity scores。

Complementary Sequence-Wise Auxiliary Loss.

序列级别的负载均衡,:尽管 DeepSeek-V3 主要依赖无辅助损失策略实现负载均衡，但为防止单个序列内出现极端不平衡，我们还采用了一种互补的序列级平衡损失：

专家激活次数（公式 18）

$(f_i = \sum_{t=1}^{T} \mathbb{I}\left( s_{i,t} \in \text{Topk}(\{s_{j,t} \mid 1 \leqslant j \leqslant N_r\}, K_r) \right)$

作用：统计第i个专家在当前序列中被选入 “Top-K 激活集” 的总次数。

专家总贡献（公式 20）

$P_i = \sum_{t=1}^{T} s'_{i,t}$

作用：计算第i个专家在当前序列中所有令牌上的 “归一化贡献总和”，反映该专家对整个序列的累计影响。

整体逻辑与目标

序列级平衡损失 $\mathcal{L}_{\text{Bal}}$ 通过计算 $f_i$ （激活次数）与 $P_i$ （总贡献）的乘积之和，实现两个目标：

若某专家 $f_i$ （激活次数）过高，且 $P_i$ （总贡献）也过高，会导致 $f_i P_i$ 增大，损失上升，倒逼模型减少对该专家的依赖。
反之，若专家被激活次数少 $f_i$ 小），即使贡献高 $P_i$ 大），乘积也较小，损失影响有限，避免抑制高效专家。

查看全文

http://www.dtcms.com/a/599050.html

软文网站推广wordpress 添加视频

杭州网站设计公司哪个好百度关键词怎么优化

网站上怎样做轮播图珠宝钻石网站建站

数据结构入门 (十)：“左小右大”的秩序 —— 深入二叉搜索树

能不能模仿百度一样做搜索引擎网站php网站开发职责

如果做局域网影音网站企业服务中心抖音

常见购物网站功能丹东建设银行网站

徐州建网站网站界面设计形考

最新电大网站开发维护WORDPRESS摘要无效

高端定制网站开发买空间哪个网站好

Linux 内存管理 (5)：buddy 内存分配简要流程

C++ 高精度计算：突破数据类型限制的实现与应用

学做招投标的网站上传空间站的注意事项

黑马JAVAWeb -Vue工程化 - Element Plus- 表格-分页条-中文语言包-对话框-Form表单

甘州区建设局网站wordpress谷歌广告

纪检网站建设动态主题国内建站平台

网站页面的大小写国内seo服务商

如何在关键里程碑已延迟的情况下重新规划项目进度

排版好看的网站界面湖北企业响应式网站建设价位

光伏电站运维-可视化大屏带来的便利

张家港保税区建设规划局网站商标注册查询官网入口官方

MySQL 四种隔离级别：从脏读到幻读的全过程

人才网网站建设方案河北建设工程信息网登陆

网站后台不能上传做网站主机选择

网站开发与管理课程设计心得坛墨网站建设

阿里巴巴做网站难吗南京谷歌seo

当 AI 工作流需要“人类智慧“：深度解析 Microsoft Agent Framework 的人工接入机制

Linux 内存管理 (3)：fixmap

一个视频多平台发布天津网站seo策划

数据管理战略｜3数据管理成功的预期衡量标准｜螺旋上升

DeepSeek-V3-Multi-Head Latent Attention

DeepSeekMoE

Complementary Sequence-Wise Auxiliary Loss.

专家激活次数（公式 18）

专家总贡献（公式 20）

整体逻辑与目标

相关文章：