当前位置: 首页 > news >正文

Qwen3术语解密

今天Qwen3 正式发布并将 8 款「混合推理模型」开源,作为工程同学,在阅读学习文章的时候其实有很多的专业术语没搞明白,这里借助大模型和网上资料自己整理了一部分分享给大家,希望能帮到同样有需求的同学

MoE模型与Dense模型

稠密模型(Dense Model)

  • 类比:像一位全科医生,无论患者是感冒还是骨折,都必须亲自处理所有细节。
  • 定义:传统神经网络结构,所有参数(神经元)在每次推理时全部激活,无论输入是什么。
  • 特点:
    • 统一处理:输入一句话或一张图片,整个模型的所有参数都参与计算。
    • 参数与计算量成正比:参数越多,计算量越大。
  • 例子:
    • Qwen3-32B:每次推理必须调用全部320亿参数,适合通用任务,但计算成本高。
  • 优点:结构简单,训练稳定。
  • 缺点:规模越大,计算资源消耗越高。

混合专家模型(MoE, Mixture of Experts)

  • 类比:像一家医院,患者挂号后自动分配到专科医生(呼吸科、骨科等),每个专家只解决自己擅长的问题。
  • 定义:将大模型拆分成多个“小专家”,每次推理动态选择部分专家参与计算。
  • 特点:
    • 分而治之:模型总参数很大(如2350亿),但每次只激活部分参数(如220亿)。
    • 高效灵活:不同任务调用不同专家(例如数学专家、编程专家)。
  • 例子:
    • Qwen3-235B-A22B:总参数2350亿,但每次激活220亿,计算量相当于一个220亿参数的稠密模型。
  • 优点:
    • 大容量、低计算成本(类似“召之即来,挥之即去”)。
    • 适合处理多样化任务(如代码、数学、多语言)。
  • 缺点:
    • 训练复杂,需设计专家协作机制(路由算法)。

对比表格

特性

稠密模型

MoE模型

参数激活方式

全部激活

按需激活部分专家

计算效率

低(参数越多越慢)

高(只计算需要的部分)

适用场景

通用任务、资源充足

多样化任务、资源有限

例子

Qwen3-32B(320亿全激活)

Qwen3-235B(激活220亿)

MoE模型如何知道激活哪部分参数?

在MoE(混合专家)模型中,“应该激活哪部分参数”其实就是“每次推理时,如何选择要用哪些专家子网络”。

  1. 谁来决定激活哪些参数?
  • 门控网络(Gating Network):
    • MoE模型里有一个专门的“小网络”,叫做门控网络(gating network)。
    • 它会根据当前输入内容,自动决定本次推理应该激活哪些“专家”。
    • 每个“专家”其实就是一组参数(一个子网络)。
  1. 选择过程是怎样的?
    • 输入数据(比如一句话、一个图片特征等)先经过门控网络。
    • 门控网络输出一个分数/概率分布,表示每个专家子网络的“适用程度”。
    • 只激活分数最高的前N个专家(比如Top-2、Top-4等,具体数量由模型设计决定)。
    • 本次推理只用这些被选中的专家,其余专家不参与计算。
  1. 为什么这样做?
    • 不同专家擅长不同类型的任务或知识领域,门控网络会根据输入内容,动态选择最合适的专家组合。
    • 这样既能保证模型的多样性和能力,又能大幅降低推理时的计算量。
  1. 举个简单例子
  • 假设有10个专家子网络:
    • 输入一句“写一段Python代码”,门控网络可能激活“擅长编程”的专家。
    • 输入一句“翻译成英文”,门控网络可能激活“擅长翻译”的专家。
    • 每次只激活2~4个专家,其余的休息。

大模型的预训练与后训练

预训练(Pre-training)

类比:像婴儿学说话 + 学生上课学知识

  • 目标:让模型掌握语言规则、基础知识和通用逻辑。
  • 过程:
    1. 海量数据输入:模型“阅读”36万亿token的文本(相当于数千万本书),涵盖119种语言、代码、数学公式等。
    2. 分阶段学习:
      • 阶段1:学基础语言(如单词拼写、语法),上下文长度4K(相当于短文章)。
      • 阶段2:重点学数理化、编程等知识密集型内容(类似学生分科学习)。
      • 阶段3:扩展上下文到32K(能处理长篇小说或复杂代码文件)。
  • 效果:模型学会“草莓(strawberry)怎么拼写”“代码循环怎么写”,但还不擅长解题或深度推理。

后训练(Post-training)

类比:像运动员针对性训练 + 医生实习积累经验

  • 目标:让模型从“知识库”变成“问题解决专家”,适应具体任务需求。
  • 过程:
    1. 长思维链冷启动:教模型“分步骤解题”(如数学题先列公式再计算)。
    2. 强化学习探索:模拟考试+老师批改,模型通过试错学会最优解法(类似学生刷题提分)。
    3. 模式融合:整合“深度思考”和“快速回答”两种模式,用户可自由切换(像医生问诊时,简单问题速答,复杂病情详细分析)。
    4. 通用能力强化:在20多个领域(如指令遵循、工具调用)反复优化,纠正错误行为(如避免胡编乱造)。
  • 效果:模型不仅能回答“草莓有几个r”,还能解释“为什么是2个r”(通过思考模式逐步推理)。

阶段

预训练

后训练

学习方式

自学(无监督)

教练指导(有监督/强化学习)

目标

掌握语言和常识

适应任务,精准输出

类比

学课本知识

实习、专项培训

成果

知道“草莓的拼写”

能数出“草莓有2个r”

大模型的思考模式

思考模式

形象比喻:一位戴眼镜的老教授,在黑板前边写边推导,嘴里念念有词:“已知A,所以B,因此C……”

  • 特点
    • 逐步推理:拆解复杂问题,分步骤输出中间结论(例如数学证明、代码调试)。
    • 深度分析:像侦探破案,先假设、验证,再给出最终答案。
  • 适用场景
    • 数学题:“如何证明勾股定理?”
    • 代码优化:“这段Python循环为何运行缓慢?”
    • 逻辑推理:“如果明天下雨,演唱会取消的概率是多少?”
  • 用户指令:代码中设置 enable_thinking=True,或在提问时添加 /think 触发。

示例输出

嗯,用户问“草莓(strawberry)有几个字母r”?  
首先,我需要正确拼写“strawberry”:s-t-r-a-w-b-e-r-r-y。  
然后逐个字母检查:第3个是r,第9个也是r。  
所以答案是2个r。  答案:草莓(strawberry)中有2个字母r。

非思考模式

形象比喻:一位语速极快的客服,秒回问题:“您好!答案马上给您!”

  • 特点
    • 即问即答:跳过中间步骤,直接输出最终结果。
    • 节省资源:计算时间短,适合对实时性要求高的场景。
  • 适用场景
    • 简单事实:“今天北京天气如何?”
    • 快速检索:“《哈利波特》作者是谁?”
    • 格式化回复:“把这句话翻译成英文。”
  • 用户指令:代码中设置 enable_thinking=False,或在提问时添加 /no_think 触发。

示例输出

答案:草莓(strawberry)中有2个字母r。

如何判断问题复杂度

大模型判断问题复杂度,类似医院分诊台护士快速评估患者病情。核心思路是多维度信号综合决策,而非单一标准。以下是大模型的常用“分诊术”:

  1. 问题类型识别
    • 数学/逻辑类:含“证明”“求解”“计算”等关键词,自动触发深度思考。
      :“已知x²+2x+1=0,求x的值” → 概率90%启用思考模式。
    • 事实查询类:含“多少”“哪里”“是谁”等关键词,倾向快速回答。
      :“北京人口多少?” → 直接调用知识库。
  1. 文本结构分析
    • 长度与复杂度:长问题(>50字)或含多子问题,可能需分步推理。
      :“如何优化这段Python代码?(附20行代码)” → 拆解变量、循环、算法。
    • 特殊符号:数学公式、代码片段、逻辑符号(如∵、∴)暗示复杂度。
  1. 上下文关联度
    • 多轮对话依赖:若当前问题依赖前文推理结果,自动延续思考模式。

      用户:“证明勾股定理。” → 思考模式分步推导。
      用户:“那这个定理适用三维空间吗?” → 延续深度分析。
  1. 用户显式指令
    • 指令标签:如“/think”“详细说明”强制启用思考模式,“/no_think”“简答”切快速模式。
    • 系统预设:某些接口默认模式(如API默认快速,调试工具默认深度)。

从用户侧来说我们也有一些方法来帮助大模型更好的识别:

  1. 清晰表述问题类型
    • 差示范:“关于三角形的东西?” → 模型困惑。
    • 好示范:“请证明等边三角形的高与边长关系。” → 明确触发数学模式。
  1. 结构化输入
    • 用Markdown分隔问题与上下文:
【背景】现有Python代码(见附件)运行缓慢。  
【问题】如何优化循环部分的性能?

相关文章:

  • 解决调用Claude 3.7接口 403 Request not allowed问题
  • Linux 内核中 TCP 协议的支撑解析
  • 通信协议:数字世界的隐形语言——从基础认知到工程实践-优雅草卓伊凡
  • C++每日训练 Day 18:构建响应式表单与数据验证(初学者友好)
  • [USACO08DEC] Hay For Sale S Java
  • WPF(Windows Presentation Foundation)的内容模型
  • Go 语言中的 `os.Truncate` 函数详解
  • STM32单片机入门学习——第49节: [15-2] 读写内部FLASH读取芯片ID
  • 本地大模型编程实战(29)查询图数据库NEO4J(2)
  • Mysql中索引的知识
  • 洛谷P12238 [蓝桥杯 2023 国 Java A] 单词分类
  • 基于LVS+Keepalived+NFS的高可用负载均衡集群部署
  • 基于大模型的大肠息肉全程管理研究报告
  • 破茧成蝶:一家传统制造企业的年轻化转型之路
  • 总结小程序的坑
  • ​钓鱼网页散播银狐木马,远控后门威胁终端安全
  • 数字中国浪潮下:Coremail AI赋能邮件办公,筑牢安全防线引领转型
  • VSCode突然连接不上服务器(已解决)
  • “情况说明“以后,Unity XR 开发者如何选择?
  • JavaWeb:后端web基础(TomcatServletHTTP)
  • 王毅:时代不容倒退,公道自在人心
  • “ChatGPT严选”横空出世了,“DeepSeek严选”还要等多久?
  • 中国人保一季度业绩“分化”:财险净利增超92%,寿险增收不增利
  • 上海“模速空间”:将形成人工智能“北斗七星”和群星态势
  • 探索演艺产业新路径,2万观众走进音乐科技融创节
  • 人民日报评论员:汇聚起工人阶级和广大劳动群众的磅礴力量