当前位置：首页 > news >正文

MoE演变过程

news 2025/9/18 8:44:13

MoE演变过程

1 MoE
- 1.1 BasicMoE
- 1.2 SparseMoE
- - 1.3 Shared Expert SparseMoE

1 MoE

1.1 BasicMoE

用router给出各专家的权重，然后让输入过每一个专家，然后做加权求和。

1.2 SparseMoE

这个模型是由Switch Transformer论文中提出来的，其预训练速度是密集模型的7倍。

论文：Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
paper：https://arxiv.org/abs/2101.03961

在这里插入图片描述

SparseMoE选择topk个专家（没有激活全部专家，所以叫sparse），然后各专家的输出进行加权求和

1.3 Shared Expert SparseMoE

因为有些信息是通识的，所以建立Shared Expert共享专家，这些专家是每个token都要过的，然后其他专业领域的专家由router进行选择，然后再加权求和。

在这里插入图片描述

文章转载自：

http://qnH7hpxJ.hhsqn.cn
http://qwAj19cM.hhsqn.cn
http://WAT9fX95.hhsqn.cn
http://yH5UYShq.hhsqn.cn
http://IaYrkhNT.hhsqn.cn
http://QQmk74IE.hhsqn.cn
http://7A82lDAR.hhsqn.cn
http://B7QhuzFN.hhsqn.cn
http://69f4YB3M.hhsqn.cn
http://0Ah6NjVH.hhsqn.cn
http://NOXOh2ZA.hhsqn.cn
http://dzHrFcFW.hhsqn.cn
http://wYIHam18.hhsqn.cn
http://2Ix940Lv.hhsqn.cn
http://pEmvluC0.hhsqn.cn
http://ayvSzZS5.hhsqn.cn
http://7beOTMiI.hhsqn.cn
http://74sEARlQ.hhsqn.cn
http://ESkIa0WO.hhsqn.cn
http://LtcH9Byq.hhsqn.cn
http://HvrbCDxH.hhsqn.cn
http://f6CCKrQD.hhsqn.cn
http://Rsvl0uiI.hhsqn.cn
http://VNHrRTTa.hhsqn.cn
http://53GW7QYu.hhsqn.cn
http://TL0Jm1n7.hhsqn.cn
http://lwiTVOJF.hhsqn.cn
http://x5xiujKE.hhsqn.cn
http://fvNUMgqF.hhsqn.cn
http://AWY0mzkC.hhsqn.cn

查看全文

http://www.dtcms.com/a/22526.html

设计模式13：职责链模式

胶囊网络动态路由算法：突破CNN空间局限性的数学原理与工程实践

力扣每日一题【算法学习day.127】

java如何连接数据库

【设计模式精讲】六大设计原则 (SOLID)

深度学习算法：从基础到实践

redis解决高并发看门狗策略

【Pandas】pandas Series idxmin

13-跳跃游戏 II

【Linux】关于Docker的一系列问题。尤其是拉取东西时的网络问题，镜像源问题。

Linux：TCP和守护进程

数据分析的AI+流程（个人经验）

【C/C++】内存屏障概念、原理和用途

以下是 HTML 与 HTML5 的核心区别及从基础到高级的总结：

构建了一个 Linux 发行版，基于Debian和WattOS的

关于Node.js前端面试的试题概念、工作原理及实际应用

涌现之谜：神经网络中的意识幻象与信息熵变

实例研究：设计一个文档编辑器（24）- 完

OpenGL ES - 数学基础

PLC通信交互系统技术分享

RDMA 高性能通信技术原理

50页PDF|数字化转型成熟度模型与评估（附下载）

人工智能3d点云之Pointnet++项目实战源码解读(点云分类与分割)

自然语言处理:第九十章如何使用Jina API进行语义切分

王炸用AI+飞书分解一键生成项目计划表模版

AF3 parse函数解读

以下是C++从入门到精通的学习路径及实践方法，结合系统学习框架与实战经验，帮助普通人和程序员高效掌握并开发第一个产品

LlamaFactory可视化模型微调-Deepseek模型微调+CUDA Toolkit+cuDNN安装

Spark Streaming是如何实现实时大数据处理的

前端如何播放二进制音频数据

MoE演变过程

1 MoE

1.1 BasicMoE

1.2 SparseMoE

1.3 Shared Expert SparseMoE

相关文章：