当前位置: 首页 > news >正文

DeepSeek-OCR MoE结构梳理(其它LLM原理类似)

本文档参考DeepSeek-OCR LLM部分(DeepSeek-3B-MoE)前向推理流程解读。

网络结构高清大图,请在点击下载获取。

1. 采用64个专家模块(mlp),每个token推理激活6个专家模块。

2. prefill产生首token运行时流程

        从流程图中可以明显看出,混合专家模块其实主要针对每个block的transformer模块中的计算量最大的Feed Forward(前馈网络,实际就是全连接+act)做选择,64个混合专家在903个输入token中每个token都被选择6个,即计算903x6次专家计算(Feed Forward),但如果是稠密模型则需要做903x64次FeedForward,计算量巨大。同时,在DeepSeek-3B-MoE中存在一个共享专家(Feed Forward)用于均衡信息。共享专家模块的全连接层维度更大,可以参考下面的ModuleList块,存在1280x6848的权重。而每个混合专家只有1280x896的权重,但64个混合专家权重会更多,所以混合专家模块MoE的主要目的是以空间换时间,更大内存的占用换取推理时更快的速度。

        在DeepSeek-OCR中的3B-MoE模型的block为11(从1~11,第0个block为稠密模型),即11次稠密模型与11次混合专家带来的计算量的减少是巨大的。当然在其它模型算法中(比如Qwen 30B A3B模型中采用了128个专家模块,每次激活8个专家模块)。

        另外,在prefill阶段,因为一般输入token数量大部分会大于64(本例中为903),所以基本上每个专家模块都会被不同的token所选中,所以大部分混合专家都会被激活。但是也不排除有特例,在prefill阶段存在没有被任何token选中的,那此时concat的输入个数就不固定了,但输出维度是一定的。

3. decode阶段解码时的MoE混合专家模块流程。

        与prefill阶段类似,只不过prefill阶段903个token,在decode阶段每次只有一个token输入,即1x1x1280。另外,由于decode阶段每次输入一个token,所以混合专家每次只有6个被选中激活,即concat的输入个数固定为6个。

http://www.dtcms.com/a/541988.html

相关文章:

  • 浙江建设银行网站多少钱算有钱
  • 青岛正规公司网站建设公司国内网如何看国外网站
  • 商城网站建设公司报价如何搜索公司所有的网站
  • 成绩查询和成绩分析发布工具搭建教程
  • 控制网站的大量访问连云港建设工程质量监督站网站
  • Visual Studio 2010 Ultimate 中文版安装教程(ISO文件安装步骤附安装包下载)​
  • 【前端高频面试题】深入理解 JavaScript 内存管理与闭包原理(附高分答题模板)
  • 样本熵和泊松指数的计算流程!!!
  • 在平台企业网站推广怎么做网站建设合同详细
  • C++运算符重载中的引用返回:链式操作的关键技巧
  • Python文件操作全解析:打开、关闭与读写实战
  • 服装 多语言 网站源码国外做鞋子的网站
  • Maven 项目模板
  • 安全可信网站网页设计师培训在哪里
  • 我的网站模板下载下面哪些不是网页制作工具
  • 西安优秀的集团门户网站建设公司wordpress页面默认模板
  • 怎么往网站添加视频网站建设 计入哪个科目
  • 做网站放网站广告南阳建设网站
  • 从 0 到 1 掌握 std::packaged_task:C++ 异步任务的 “隐形胶水“
  • 传统文化网站建设方案空间放两个网站
  • 品牌展示设计网站简洁类wordpress主题
  • 基于AI智能算法的装备结构可靠性分析与优化设计技术专题
  • 地平线J6的基础简介
  • 郓城网站建设价格沈阳做网站优化的公司
  • 一键部署MySQL
  • 网站 做 专家问答汽车网站开发思路
  • float16精度、bfloat16、混合精度
  • 北京网站建设公司有哪些学代码的网站
  • 获取天气数据问题【python】
  • 北京营销型网站开发海外购物app排行榜前十名