当前位置：首页 > news >正文

论文笔记：Multi-Head Mixture-of-Experts

news 2025/8/6 1:48:12

2024 neurips

1 背景

稀疏混合专家（SMoE）可在不显著增加训练和推理成本的前提下提升模型的能力【比如Mixtral 8*7B，表现可以媲美LLaMA-2 70B】
- 但它也有两个问题
  - 专家激活率低（下图左）
    - 在优化时只有一小部分专家会被激活
    - ——>在学习应对复杂任务的大量专家时，会出现性能次优和效果不佳的问题
  - 无法细粒度地分析单个 token 的多重语义概念【多义词/具有多重细节的图块】
——>提出了多头混合专家（MH-MoE）
- 采用了多头机制，可将每个输入 token 分成多个子 token
- 然后将这些子 token 分配给一组多样化的专家并行处理，之后再无缝地将它们整合进原来的 token 形式
MH-MOE的优势
- 专家激活率更高且扩展性更好
  - MH-MoE 能优化几乎所有专家，从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率
- 具有更细粒度的理解能力
  - MH-MoE 采用的多头机制会将子 token 分配给不同的专家，从而可以联合关注来自不同专家的不同表征空间的信息，最终获得更好更细粒度的理解能力。

2 方法

MH-MoE 的训练目标是最小化两个损失：针对具体任务的损失和辅助性的负载平衡损失。

http://www.dtcms.com/a/18325.html

相关文章：

Flutter 双屏双引擎通信插件加入 GitCode：解锁双屏开发新潜能

麒麟操作系统-rabbitmq二进制安装

React 高级教程

【ArcGIS Pro二次开发】(87)：样式_Style的用法

【Spring AI】基于SpringAI+Vue3+ElementPlus的QA系统实现(前端)

flutter ListView Item复用源码解析

MySQL Workbench工具导出导入数据库

spring学习(spring-DI(setter注入、构造器注入、自动装配方式))

在 CentOS 系统中配置交换空间（Swap）解决内存不足

Android和DLT日志系统

13.推荐系统的性能优化

Go语言协程Goroutine高级用法（一）

分布式版本控制系统---git

【openresty服务器】：源码编译openresty支持ssl，增加service系统服务，开机启动，自己本地签名证书，配置https访问

基于巨控GRM552YW-CHE：西门子S7-1200 PLC远程程序上下载与实时调试方案

spring cloud 使用 webSocket

怎麼使用靜態住宅IP進行多社媒帳號管理

A4988一款带转换器和过流保护的 DMOS 微步驱动器的使用方式

探索高通骁龙游戏超分辨率技术：移动游戏的未来

20240911 光迅科技笔试

ProxySQL构建PolarDB-X标准版高可用路由服务三节点集群

理解WebGPU 中的 GPUDevice ：与 GPU 交互的核心接口

【时时三省】(C语言基础）简单的算法举例

leetcode-495.提莫攻击

或非门组成的SR锁存器真值表相关问题

LLM：GPT 系列

C#关于静态关键词static详解

vue 文件下载（导出）excel的方法

【Elasticsearch】运行时字段（Runtime Fields）索引时定义运行时字段

EtherNetIP转ModbusTCP网关，给风电注入“超级赛亚人”能量