当前位置：首页 > news >正文

MoE (Mixture of Experts)

news 2025/11/2 17:39:32

记录moe的重要内容

todo

参考

博客：A Visual Guide to Mixture of Experts (MoE)

混合专家模型 (MoE)

显著优势：能够在远少于稠密模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下，可以显著扩大模型或数据集的规模。特别是在预训练阶段，与稠密模型相比，混合专家模型通常能够更快地达到相同的质量水平。

MoE 的两个核心组成部分

专家（Experts）和路由器（Router）

专家：每个“专家”本质上也是一个前馈神经网络（FFNN）。
路由器或门控网络（Gate Network）：负责决定每个 token（词元）应该被送到哪些专家那里去处理。

专家（Experts）

稠密层
也就是传统Transformer中的前馈神经网络（FFNN, Feedforward Neural Network）
作用：利用注意力机制生成的上下文信息，并进一步转换这些信息，从而捕捉数据中更复杂的关联关系。
稀疏层
稀疏模型（sparse models）只激活部分参数
专家们学到了什么？
专家们更倾向于关注语法结构，而不是具体的领域知识。它们好像会用于处理某些特定类型的token。

路由（Routers）

作用

根据每个 token 的输入内容，输出一组概率值，并据此选择最匹配的专家。

MoE层

路由器 + 一组专家（FFNN被选中的一小部分）= 构成了一个 MoE 层（MoE Layer）

两种类型：稀疏MoE、稠密MoE
有什么不同？
对一组 token，Dense MoE 会将每个 token 分发给所有专家，而 Sparse MoE 只会分发给其中少数几个。
稀疏MoE的优势：有效降低推理成本，非常适合llm

专家选择的过程

步骤	内容
1️⃣	Router 线性层输出 gating logits
2️⃣	Softmax 得到专家概率
3️⃣	选择 top-k 专家
4️⃣	将 token 分发给这些专家计算
5️⃣	聚合结果（加权求和）
6️⃣	使用负载均衡 loss 维持专家使用均匀

具体计算示例：

假设：

有 3 个专家 ( E_1, E_2, E_3 )
每个输入维度是 4
Router 是一个线性层 $Wr∈R4×3W_r \in \mathbb{R}^{4 \times 3}$
使用 Top-2 gating。

Step 1. Router 输出 gating logits

输入 token：x = [0.5, -1.0, 0.3, 0.8]
Router 参数（简化）：
$Wr=[0.10.3−0.2−0.40.20.10.5−0.30.40.20.00.1]W_r = \begin{bmatrix} 0.1 & 0.3 & -0.2 \ -0.4 & 0.2 & 0.1 \ 0.5 & -0.3 & 0.4 \ 0.2 & 0.0 & 0.1 \end{bmatrix}$
计算 logits：
$l = x W_r = [0.5*0.1 + (-1)*(-0.4) + 0.3*0.5 + 0.8*0.2, \ ...] = [0.63, -0.01, 0.28]$
经过 softmax：
$\text{softmax}([0.63, -0.01, 0.28]) = [0.44, 0.21, 0.35]$