12.4 Hinton与Jeff Dean突破之作:稀疏门控MoE如何用1%计算量训练万亿参数模型?
Hinton与Jeff Dean突破之作:稀疏门控MoE如何用1%计算量训练万亿参数模型?
稀疏门控:支持超大网络的MoEs(Hinton & Jeff Dean, 2017)
技术演进背景
2017年,由深度学习三巨头之一的Geoffrey Hinton和Google Brain负责人Jeff Dean联合发表的《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》论文,标志着MoEs技术进入新纪元。这项研究突破性地解决了传统MoEs的两个致命缺陷:
- 计算复杂度爆炸:传统MoEs全连接架构导致参数呈指数级增长
- 专家协作低效:专家网络之间缺乏有效的分工机制
核心技术突破
1. 稀疏门控机制(Sparsely-Gated)
graph TDA[输入向量x] --> B(门控网络G(x))B -->