当前位置: 首页 > news >正文

论文略读: LAYERWISE RECURRENT ROUTER FOR MIXTURE-OF-EXPERTS

ICLR 2025 3668

大型语言模型(LLMs)的扩展极大地提升了其在各类任务中的表现,但这一增长也需要高效的计算策略来匹配。**专家混合架构(Mixture-of-Experts,MoE)**在不显著增加训练成本的前提下扩展模型规模方面表现突出。然而,尽管MoE具备优势,当前的MoE模型在参数效率上却常常存在问题。例如,一个具有 520亿 参数的预训练MoE模型,其性能可能仅与一个标准的 6.7亿 参数模型相当。

在MoE中,路由器(router) 是核心组件,但目前的做法是在各层独立地对token进行分配,未能利用历史路由信息,这可能导致次优的token–专家匹配,进而引发参数利用效率低下的问题。

为了解决这一问题,我们提出了一种新的架构:用于MoE的层间循环路由器(Layerwise Recurrent Router for Mixture-of-Experts,简称RMoE)。RMoE引入了门控循环单元(GRU),在连续层之间建立路由决策的依赖关系。这种“层间循环”机制可以高效地并行计算,且只带来可接受的计算成本。

我们的大量实证评估表明,基于RMoE的语言模型在多个基准模型上都实现了稳定且显著的性能提升。此外,RMoE还引入了一种新颖的计算阶段,该阶段与现有方法正交,从而可以无缝地集成到各种现有的MoE架构中。

分析表明,RMoE的性能提升主要得益于其跨层信息共享机制,这不仅改善了专家选择的准确性,还提升了专家间的多样性。

相关文章:

  • 15.vue.js的watch()和watchEffect()(2)
  • MVVM、MVP、MVC
  • java常见第三方依赖以及相关安全问题
  • java 设计模式_行为型_14策略模式
  • 数据结构 学习 队列 2025年6月14日 11点22分
  • 智能穿戴平台与医疗AI融合发展路径研究
  • 微信小程序使用画布实现飘落泡泡功能
  • 【软测】node.js辅助生成测试报告
  • RK3568 usb gadget功能配置
  • QCombobox设置圆角下拉列表并调整下拉列表位置
  • [每周一更]-(第144期):Go 定时任务的使用:从基础到进阶
  • github-mcp-server v0.5.0 发布详解:远程 GitHub MCP 服务器全新升级与最佳实践
  • Arduino入门教程:4-1、代码基础-进阶
  • PySpark 使用pyarrow指定版本
  • Android-Mod-Menu 使用教程
  • AlibabaCloud+SpringCloud简述
  • 基于Python学习《Head First设计模式》第十三章 现实世界中的模式
  • Python3 学习(菜鸟)-02基本数据类型
  • 基于Python学习《Head First设计模式》第十一章 代理模式
  • 使用Cursor + Devbox + Uniapp 一站式AI编程开发移动端(App、H5、小程序)
  • 网站移动版怎么做/建网站公司
  • 不懂代码如何做网站/网络营销推广实训报告
  • 高端网站建设套餐/百度一直不收录网站
  • 设计相关网站/seo推广营销靠谱
  • 动态网站的表单设计/河南最近的热搜事件
  • 婚纱摄影网站开发背景/网络推广是指什么