当前位置: 首页 > news >正文

Qwen3技术之模型后训练

0. 引入

2025年5月,qwen推出了旗舰模型(flagship model)Qwen3-235B-A22B。并以Apache 2.0版权发布(可自由商业使用,修改代码和商用要包含原始版权)。本文对其技术报告中提到的后训练技术进行解读。

1. 后训练流程

后训练两个关键目标
(1)灵活控制think和no-think模式
(2)大模型生成数据,蒸馏小模型

在这里插入图片描述

图1上半部分的4阶段训练:前2步为了think模式注入模型,后2步为了no-think模式。

四个Stage的目标:
Stage1:为模型灌输基础推理模式(instill foundational reasoning patterns);
Stage2:用GRPO对可验证结果的数据进行训练;
Stage3:think模式与no_think模式的混合;
Stage4:提高模型的能力与稳定性。

做蒸馏的目的:
(1)提高模型能力同时降低训练资源
(2)只需要四阶段训练的GPU的1/10

2. Long-CoT Cold Start

  1. 该阶段目标

为模型灌输基础推理模式(instill foundational reasoning patterns)。

  1. 高质量数据

包括多领域数据,包括代码、数学、逻辑推理、STEM。数据中都有answer(应该就是标注的sft数据,有question和answer)

数据集构造分为两个阶段:
(1)查询过滤,滤掉不易被验证的问题,比如含有多个子问题、太通用的文本生成。以及去掉qwen2.5自己不需要CoT就能回答正确的问题。最终根据标注获取平衡数据。
(2)阶段,生成问题对应的N个回复,并进行过滤:错误answer,重复,推理不充分,思考过程与记过不一致,语言混合或风格变化,与验证集过于相似。

该步骤使用最小的训练集数量与训练steps。

3. Reasoning RL

该步骤用GRPO对可验证结果的数据进行训练。RL步骤需要对结果进行验证,所以需要验证器(比如判断数学计算结果是否正确)。该步骤只用了3995条数据(侧面说明这样的数据难以获取?)

4. Thinking Mode Fusion

该步骤将think模式与no_think模式的混合。

  1. 构造SFT数据

think数据和no_think数据,混合为该阶段SFT数据。包括:
(1)think数据用stage2模型通过对stage1数据进行拒绝采样(无法回答的数据)获取到。
(2)no-think数据,使用多领域数据,自动验证选择高质量回答数据。
增加翻译任务数据比重

  1. 三类数据
    (1)system或者prompt中含think
    (2)含no-think
    (3)不含tag,默认用think模式

  2. Thinking Budget

两种数据混合训练带来的附加好处:think一半后进行回答。

推理长度到达用户限制的阈值后,终止继续think就输出最终结果:训练时也没期望达到这个效果,这是训练后自然而然达到的效果。

5. General RL

该步骤提高模型的能力与稳定性。用20多个任务打分做RL,包括如下部分任务:

  1. 指令跟随:生成用户指令中期望的内容、格式、结构化输出、对齐用户期望
  2. 格式跟随:<think></think>
  3. 偏好跟随:回答更有帮助,风格,更自然,满足用户期望
  4. 智能体能力:真实环境下的多轮工具调用交互

三类reward:
(1)规则
(2)模型:LLM根据标注答案与此时回答进行对比打分
(3)人类偏好打分

参考

  1. qwen3技术文档,https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
http://www.dtcms.com/a/393090.html

相关文章:

  • 服务端实现
  • 深入AQS源码:解密Condition的await与signal
  • ceph存储配置大全
  • 数据库造神计划第十六天---索引(1)
  • 【软件推荐】免费图片视频管理工具,让灵感库告别混乱
  • C语言入门教程 | 阶段二:循环语句详解(while、do...while、for)
  • GEO(Generative Engine Optimization)完全指南:从原理到实践
  • Msyql日期时间总结
  • IP地址入门基础
  • 【ROS2】Beginner: CLI tools
  • LeetCode刷题记录----279.完全平方数(Medium)
  • H7-TOOL的250M示波器模组采集CANFD标准波形效果,开口逻辑0,闭口逻辑1
  • 打工人日报#20250920
  • 详解C/C++内存管理
  • SSM(springboot部分)
  • C++ std:string和Qt的QString有哪些差异?
  • FunASR开源项目实战:解锁语音识别新姿势
  • (华为杯)数学建模比赛编程助手
  • 通义千问对postgresql wire协议的连接和执行SQL过程的解释
  • 钣金折弯机被远程锁机了怎么办
  • 基于陌讯AIGC检测算法的高性能部署实践:FastAPI与多进程并发设计详解
  • 群晖 NAS 远程访问痛点解决:神卓 N600 公网 IP 盒实战体验
  • JavaWeb之HttpServletRequest与HttpServletResponse详解及快递管理系统实践
  • Git详细介绍
  • 大话计算机网络(上)
  • JVM方法调用机制深度解析:从aload_1到invokevirtual的完整旅程
  • STM32CubeIDE学习——安装
  • 追觅宣布进军手机市场,已经白热化的手机赛道追觅优势何在?
  • AI智能体开发工作流的成功案例分享及思路
  • 【算法基础】String、Hash 与 Stack