当前位置: 首页 > news >正文

论文笔记:Multi-Head Mixture-of-Experts

2024 neurips

1 背景

  • 稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力【比如Mixtral 8*7B,表现可以媲美LLaMA-2 70B】
    • 但它也有两个问题
      • 专家激活率低(下图左)
        • 在优化时只有一小部分专家会被激活
        • ——>在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题
      • 无法细粒度地分析单个 token 的多重语义概念【多义词/具有多重细节的图块】
  • ——>提出了多头混合专家(MH-MoE)
    • 采用了多头机制,可将每个输入 token 分成多个子 token
    • 然后将这些子 token 分配给一组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式
  • MH-MOE的优势
    • 专家激活率更高且扩展性更好
      • MH-MoE 能优化几乎所有专家,从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率
    • 具有更细粒度的理解能力
      • MH-MoE 采用的多头机制会将子 token 分配给不同的专家,从而可以联合关注来自不同专家的不同表征空间的信息,最终获得更好更细粒度的理解能力。

2 方法

  • MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。

相关文章:

  • Flutter 双屏双引擎通信插件加入 GitCode:解锁双屏开发新潜能
  • 麒麟操作系统-rabbitmq二进制安装
  • React 高级教程
  • 【ArcGIS Pro二次开发】(87):样式_Style的用法
  • 【Spring AI】基于SpringAI+Vue3+ElementPlus的QA系统实现(前端)
  • flutter ListView Item复用源码解析
  • MySQL Workbench工具 导出导入数据库
  • spring学习(spring-DI(setter注入、构造器注入、自动装配方式))
  • 在 CentOS 系统中配置交换空间(Swap)解决内存不足
  • Android和DLT日志系统
  • 13.推荐系统的性能优化
  • Go语言协程Goroutine高级用法(一)
  • 分布式版本控制系统---git
  • 【openresty服务器】:源码编译openresty支持ssl,增加service系统服务,开机启动,自己本地签名证书,配置https访问
  • 基于巨控GRM552YW-CHE:西门子S7-1200 PLC远程程序上下载与实时调试方案
  • spring cloud 使用 webSocket
  • 怎麼使用靜態住宅IP進行多社媒帳號管理
  • A4988一款带转换器和过流保护的 DMOS 微步驱动器的使用方式
  • 探索高通骁龙游戏超分辨率技术:移动游戏的未来
  • 20240911 光迅科技 笔试
  • 即日起,“应急使命·2025”演习公开征集新质救援能力
  • 车展之战:国产狂飙、外资反扑、智驾变辅助
  • 先去上海后赴北京,苏中城市泰州为何接连拥抱顶流“大城”?
  • 过去24小时中美是否就关税问题进行过接触?外交部:没有
  • 共绘“彩色上海”,IP SH艺术共创沙龙首期圆满举办
  • 160名老人报旅行团被扔服务区?张家界官方通报