当前位置: 首页 > news >正文

Mixture-of-Experts with Expert Choice Routing:专家混合模型与专家选择路由

摘要

稀疏激活的专家混合模型(MoE)允许在保持每个token或每个样本计算量不变的情况下,大幅增加参数数量。然而,糟糕的专家路由策略可能导致某些专家未被充分训练,从而使得专家在特定任务上过度或不足专业化。先前的研究通过使用top-k函数为每个token分配固定数量的专家,无视不同token的重要性差异。为了解决这个问题,我们提出了一种异构专家混合模型,采用专家选择方法。我们并非让token选择top-k个专家,而是让专家选择top-k个token。结果是,每个token可以路由到不同数量的专家,并且每个专家可以有固定的桶大小。我们通过使用与Switch Transformer的top-1和GShard的top-2门控相同的计算资源,系统地研究了预训练加速效果,发现我们的方法使得训练收敛时间提高了2倍以上。在相同计算成本下,我们的方法在GLUE和SuperGLUE基准测试中精调了11个任务,表现更佳。对于较小的激活成本,我们的方法在11个任务中的7个任务上优于T5密集模型。

1 引言

扩大模型容量、数据集大小和训练时间已被证明能够大幅提升计算机视觉架构[4, 11, 13, 14]和神经语言模型[2, 20, 26, 27]的性能。最终模型的质量已被发现与数据量、模型大小和计算时间呈幂次关系[16, 20]。然而,随着我们对绿色AI[29]的关注加深,训练效率(即使用总计算量比现有最先进系

http://www.dtcms.com/a/143984.html

相关文章:

  • LeetCode 1365. 有多少小于当前数字的数字 java题解
  • @EnableAsync+@Async源码学习笔记之一
  • C语言格式化输入输出总结 (printf和scanf)
  • ubuntu18.04安装QT问题汇总
  • 【STM32单片机】#10 USART串口通信
  • Kubernetes 多主多从集群部署完整文档
  • 解码 Web Service:从技术原理到应用场景的深度剖析
  • (2)Vue事件绑定的使用
  • 测试第四课---------性能测试
  • JAVA IO、BIO、NIO、AIO及零拷贝
  • 数据从辅存调入主存,页表中一定存在
  • LinearLayout 线性布局
  • 6.7 ChatGPT自动生成定时任务脚本:Python与Cron双方案实战指南
  • dac直通线还是aoc直通线? sfp使用
  • Shell脚本-什么时候需要定义变量
  • 【2025】Datawhale AI春训营-蛋白质预测(AI+生命科学)-Task2笔记
  • 实战交易策略 篇十六:猎豹阿杜打板交易策略
  • PHP异常处理__Exception类
  • TV主板的拆解学习
  • 实战交易策略 篇十五:东莞小文超级短线交易策略
  • @EnableAsync+@Async源码学习笔记之三
  • 详讲Linux下进程等待
  • 美信监控易:数据采集与整合的卓越之选
  • Java读取JSON文件并将其中元素转为JSON对象输出
  • Jenkins设置中文显示
  • [特殊字符] AI 大模型的 Prompt Engineering 原理:从基础到源码实践
  • 速查手册:TA-Lib 超过150种量化技术指标计算全解 - 1. Overlap Studies(重叠指标)
  • C++ 用哈希表封装unordered_set/unordered_map
  • 多线程——阻塞队列(六)
  • 红黑树模拟实现STL中的map和set---C++