当前位置：首页 > news >正文

Mixture-of-Experts（MoE）原理与在DeepSeek中的应用

news 2025/7/3 9:19:50

MoE机制简介

Mixture-of-Experts（MoE，混合专家）是一种“分而治之”的神经网络架构思想。在MoE模型中，存在多个并行的子网络，被称为“专家”。每个专家通常擅长处理特定类型的输入特征或知识片段。而在模型前向计算时，并非激活所有专家参与运算，而是通过一个专门的门控网络（Gate Network）为每个输入动态选择少量最适合的专家来处理。这种机制使每个输入仅激活模型中一小部分参数（稀疏激活），从而大幅提升模型参数规模上限的同时保持计算开销在可控范围内。

MoE的核心思想最早可以追溯到上世纪90年代：Jacobs等人在1991年提出了混合专家模型的概念，用多个专家网络共同完成任务，并由一个门控（ gating ）机制根据输入情况加权融合这些专家的输出。现代深度学习中，MoE架构在大规模模型上的成功应用始于2017年，Shazeer等人将MoE引入到语言模型训练中，构建了超大规模的MoE模型，使模型总参数量达到百亿级，但每次推理只需激活其中极小一部分参数。这项工作证明了MoE在参数扩展与计算效率上的巨大潜力：相比于传统“密集”模型需要激活所有参数，MoE模型通过稀疏激活节省了大量算力&#x

查看全文

http://www.dtcms.com/a/163464.html