当前位置: 首页 > news >正文

fMoE论文阅读笔记

原文链接:https://arxiv.org/pdf/2502.05370v1

在混合专家(MoE)架构中,初始阶段涉及输入样本通过GateNet进行多分类的鉴别过程,目的是确定最适合处理输入的专家模型。这个步骤被称为“experts selection”,也是整个MoE模型的核心理念,学术界通常将其描述为稀疏性激活。随后,被选中(激活)的专家模型负责处理输入样本,进而生成最终的预测结果。

在这里插入图片描述
所以MOE有高效性的特点:由于只有少数专家模型被激活,大部分模型处于未激活状态,混合专家模型具有很高的稀疏性。这种稀疏性带来了计算效率的提升,因为只有特定的专家模型对当前输入进行处理,减少了计算的开销。

但是MOE也同样有问题:那些不参与推理的模型仍然在GPU中待命,这样就导致GPU的memory不堪重负。所以就提出了experts offload。

由于是MOE所以一些模型其实是不激活的,那么,就可以把这些模型offload到CPU上,这样就是可以节约GPU的储存和带宽。这个就叫做experts offload.

但是现有的很多experts offload方法都没有很好的提升模型时延,或者仍然有大量内存占用的问题。主要原因是他们做的不够细,模型没有很好的被分门别类,导致真正需要使用的expert被错误的放到了CPU上,在使用expert的时候需要重新加载的时间。

粗颗粒度的offloading solution是基于request level的,这样的话就是由多个iteration组成的。而细颗粒度则是iteration level的。但是实验表明,粗颗粒度的expert heatmap被激活的更加均匀(熵更大)而且随着iteration的增加,expert被激活的就是更加均匀。

在这里插入图片描述
fMoE提出了expert-map,记录iteration级别输入的内容以及调取模型的情况,然后根据这张expert-map来决定experts offload。

fMoE的整体架构:
在这里插入图片描述
问题

  1. 这个fMoE是在训练阶段用呢,还是推理阶段用呢?
    推理阶段用,因为模型不能有变化
  2. Expert map macher 和expert cache怎么保证比推理更快的呢?
    要提前几层预测出来expert的使用情况

整片文章使用了启发解的方式去semantic和trajectory与历史记录的相似性(用cosine similarity),然后选择和历史semantic、trajectory相近的expert去prefetch

LLM中的trajectory是指啥?In this paper, “trajectory” is defined as the collection of probability distributions over experts observed through layers.

大概的意思是,由历史的iteration的内容来推断当前iteration的内容。但是,每个iteration有很多layers, 所以存在semantic和trajectory两种方式。但这两个score咋整合呢???


文章转载自:

http://8Mb21Akc.wjxtq.cn
http://sZEV55HX.wjxtq.cn
http://Uj5K6rT7.wjxtq.cn
http://A9qnSbYC.wjxtq.cn
http://gDQOTwtB.wjxtq.cn
http://ck3OPOY2.wjxtq.cn
http://bDneX3yO.wjxtq.cn
http://NGzpv9fR.wjxtq.cn
http://ZHyCTWqi.wjxtq.cn
http://57paMBAb.wjxtq.cn
http://JcvaU4x0.wjxtq.cn
http://CBftLE1X.wjxtq.cn
http://IjcOa4sB.wjxtq.cn
http://wW7y1yNE.wjxtq.cn
http://ie8bbVBI.wjxtq.cn
http://51LJt3gT.wjxtq.cn
http://eTWn59La.wjxtq.cn
http://IFCipK8p.wjxtq.cn
http://1Q3ujmR6.wjxtq.cn
http://W94frEnT.wjxtq.cn
http://S5g86QEf.wjxtq.cn
http://jirsEA1x.wjxtq.cn
http://BclclGkG.wjxtq.cn
http://azsWaASR.wjxtq.cn
http://DU33cyNc.wjxtq.cn
http://lJbIRqHB.wjxtq.cn
http://22i0zEym.wjxtq.cn
http://HcvruYhW.wjxtq.cn
http://VEwZruDg.wjxtq.cn
http://UjvSch8d.wjxtq.cn
http://www.dtcms.com/a/382763.html

相关文章:

  • 721SJBH笔记本电脑销售网站
  • k3s集群部署(使用外部etcd集群)
  • 京东返利app的分布式ID生成策略:雪花算法在订单系统中的实践
  • 大数据分析岗位发展前景与行业需求分析
  • 【Linux手册】共享内存:零拷贝实现共享的优势与实操指南
  • ARM的TrustZone
  • 返利app排行榜的缓存更新策略:基于过期时间与主动更新的混合方案
  • springboot+zookeeper+(2025最新)Dubbo-admin实现分布式
  • 缓存与数据库一致性实战手册:从故障修复到架构演进
  • 基于 Linux 内核模块的字符设备 FIFO 驱动设计与实现解析(C/C++代码实现)
  • 【C++】类和对象(下):初始化列表、类型转换、Static、友元、内部类、匿名对象/有名对象、优化
  • JSON、Ajax
  • 第2课:Agent系统架构与设计模式
  • Python上下文管理器进阶指南:不仅仅是with语句
  • Entities - Entity 的创建模式
  • 用html5写王者荣耀之王者坟墓的游戏2deepseek版
  • 【Wit】pure-admin后台管理系统前端与FastAPI后端联调通信实例
  • godot+c#使用godot-sqlite连接数据库
  • 【pure-admin】pureadmin的登录对接后端
  • tcpump | 深入探索网络抓包工具
  • scikit-learn 分层聚类算法详解
  • Kafka面试精讲 Day 18:磁盘IO与网络优化
  • javaweb CSS
  • css`min()` 、`max()`、 `clamp()`
  • 超越平面交互:SLAM技术如何驱动MR迈向空间计算时代?诠视科技以算法引领变革
  • Win11桌面的word文件以及PPT文件变为白色,但是可以正常打开,如何修复
  • 【系统架构设计(31)】操作系统下:存储、设备与文件管理
  • Flask学习笔记(三)--URL构建与模板的使用
  • 基于单片机的电子抢答器设计(论文+源码)
  • TCP与UDP