当前位置: 首页 > news >正文

MoE演变过程

MoE演变过程

  • 1 MoE
    • 1.1 BasicMoE
    • 1.2 SparseMoE
      • 1.3 Shared Expert SparseMoE

1 MoE

1.1 BasicMoE

用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。

1.2 SparseMoE

这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。

  1. 论文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
  2. paper:https://arxiv.org/abs/2101.03961

在这里插入图片描述

SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和

1.3 Shared Expert SparseMoE

因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。

在这里插入图片描述

相关文章:

  • 设计模式13:职责链模式
  • 胶囊网络动态路由算法:突破CNN空间局限性的数学原理与工程实践
  • 力扣每日一题【算法学习day.127】
  • java如何连接数据库
  • 【设计模式精讲】六大设计原则 (SOLID)
  • 深度学习算法:从基础到实践
  • redis解决高并发看门狗策略
  • 【Pandas】pandas Series idxmin
  • 13-跳跃游戏 II
  • 【Linux】关于Docker的一系列问题。尤其是拉取东西时的网络问题,镜像源问题。
  • Linux:TCP和守护进程
  • 数据分析的AI+流程(个人经验)
  • 【C/C++】内存屏障概念、原理和用途
  • 以下是 HTML 与 HTML5 的核心区别及从基础到高级的总结:
  • 构建了一个 Linux 发行版,基于Debian和WattOS的
  • 关于Node.js前端面试的试题概念、工作原理及实际应用
  • 涌现之谜:神经网络中的意识幻象与信息熵变
  • 实例研究:设计一个文档编辑器(24)- 完
  • OpenGL ES - 数学基础
  • PLC通信交互系统技术分享
  • 新华每日电讯“关爱青年成长”三连评:青春应有多样的精彩
  • 五一假期前两日,多地党政主官暗访景点、商圈安全工作
  • 苹果第二财季营收增长5%,受关税政策影响预计下一财季新增9亿美元成本
  • “五一”假期首日跨区域人员流动预计超3.4亿人次
  • 净海护渔,中国海警局直属第一局开展伏季休渔普法宣传活动
  • 奥斯卡新规:评委必须看完影片再投票;网友:以前不是啊?