当前位置: 首页 > news >正文

论文笔记:Multi-Head Mixture-of-Experts

2024 neurips

1 背景

  • 稀疏混合专家(SMoE)可在不显著增加训练和推理成本的前提下提升模型的能力【比如Mixtral 8*7B,表现可以媲美LLaMA-2 70B】
    • 但它也有两个问题
      • 专家激活率低(下图左)
        • 在优化时只有一小部分专家会被激活
        • ——>在学习应对复杂任务的大量专家时,会出现性能次优和效果不佳的问题
      • 无法细粒度地分析单个 token 的多重语义概念【多义词/具有多重细节的图块】
  • ——>提出了多头混合专家(MH-MoE)
    • 采用了多头机制,可将每个输入 token 分成多个子 token
    • 然后将这些子 token 分配给一组多样化的专家并行处理,之后再无缝地将它们整合进原来的 token 形式
  • MH-MOE的优势
    • 专家激活率更高且扩展性更好
      • MH-MoE 能优化几乎所有专家,从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率
    • 具有更细粒度的理解能力
      • MH-MoE 采用的多头机制会将子 token 分配给不同的专家,从而可以联合关注来自不同专家的不同表征空间的信息,最终获得更好更细粒度的理解能力。

2 方法

  • MH-MoE 的训练目标是最小化两个损失:针对具体任务的损失和辅助性的负载平衡损失。

http://www.dtcms.com/a/18325.html

相关文章:

  • Flutter 双屏双引擎通信插件加入 GitCode:解锁双屏开发新潜能
  • 麒麟操作系统-rabbitmq二进制安装
  • React 高级教程
  • 【ArcGIS Pro二次开发】(87):样式_Style的用法
  • 【Spring AI】基于SpringAI+Vue3+ElementPlus的QA系统实现(前端)
  • flutter ListView Item复用源码解析
  • MySQL Workbench工具 导出导入数据库
  • spring学习(spring-DI(setter注入、构造器注入、自动装配方式))
  • 在 CentOS 系统中配置交换空间(Swap)解决内存不足
  • Android和DLT日志系统
  • 13.推荐系统的性能优化
  • Go语言协程Goroutine高级用法(一)
  • 分布式版本控制系统---git
  • 【openresty服务器】:源码编译openresty支持ssl,增加service系统服务,开机启动,自己本地签名证书,配置https访问
  • 基于巨控GRM552YW-CHE:西门子S7-1200 PLC远程程序上下载与实时调试方案
  • spring cloud 使用 webSocket
  • 怎麼使用靜態住宅IP進行多社媒帳號管理
  • A4988一款带转换器和过流保护的 DMOS 微步驱动器的使用方式
  • 探索高通骁龙游戏超分辨率技术:移动游戏的未来
  • 20240911 光迅科技 笔试
  • ProxySQL构建PolarDB-X标准版高可用路由服务三节点集群
  • 理解WebGPU 中的 GPUDevice :与 GPU 交互的核心接口
  • 【时时三省】(C语言基础)简单的算法举例
  • leetcode-495.提莫攻击
  • 或非门组成的SR锁存器真值表相关问题
  • LLM:GPT 系列
  • C#关于静态关键词static详解
  • vue 文件下载(导出)excel的方法
  • 【Elasticsearch】运行时字段(Runtime Fields)索引时定义运行时字段
  • EtherNetIP转ModbusTCP网关,给风电注入“超级赛亚人”能量