当前位置: 首页 > news >正文

MoE演变过程

MoE演变过程

  • 1 MoE
    • 1.1 BasicMoE
    • 1.2 SparseMoE
      • 1.3 Shared Expert SparseMoE

1 MoE

1.1 BasicMoE

用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。

1.2 SparseMoE

这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。

  1. 论文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
  2. paper:https://arxiv.org/abs/2101.03961

在这里插入图片描述

SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和

1.3 Shared Expert SparseMoE

因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。

在这里插入图片描述

http://www.dtcms.com/a/22526.html

相关文章:

  • 设计模式13:职责链模式
  • 胶囊网络动态路由算法:突破CNN空间局限性的数学原理与工程实践
  • 力扣每日一题【算法学习day.127】
  • java如何连接数据库
  • 【设计模式精讲】六大设计原则 (SOLID)
  • 深度学习算法:从基础到实践
  • redis解决高并发看门狗策略
  • 【Pandas】pandas Series idxmin
  • 13-跳跃游戏 II
  • 【Linux】关于Docker的一系列问题。尤其是拉取东西时的网络问题,镜像源问题。
  • Linux:TCP和守护进程
  • 数据分析的AI+流程(个人经验)
  • 【C/C++】内存屏障概念、原理和用途
  • 以下是 HTML 与 HTML5 的核心区别及从基础到高级的总结:
  • 构建了一个 Linux 发行版,基于Debian和WattOS的
  • 关于Node.js前端面试的试题概念、工作原理及实际应用
  • 涌现之谜:神经网络中的意识幻象与信息熵变
  • 实例研究:设计一个文档编辑器(24)- 完
  • OpenGL ES - 数学基础
  • PLC通信交互系统技术分享
  • RDMA 高性能通信技术原理
  • 50页PDF|数字化转型成熟度模型与评估(附下载)
  • 人工智能3d点云之Pointnet++项目实战源码解读(点云分类与分割)
  • 自然语言处理:第九十章 如何使用Jina API进行语义切分
  • 王炸 用AI+飞书 分解 一键生成 项目计划表模版
  • AF3​​​​​​​ parse函数解读
  • 以下是C++从入门到精通的学习路径及实践方法,结合系统学习框架与实战经验,帮助普通人和程序员高效掌握并开发第一个产品
  • LlamaFactory可视化模型微调-Deepseek模型微调+CUDA Toolkit+cuDNN安装
  • Spark Streaming是如何实现实时大数据处理的
  • 前端如何播放二进制音频数据