当前位置: 首页 > news >正文

Qwen3技术报告笔记

摘要

昨晚Qwen3发布了完整的技术报告,介绍了最新的 Qwen3 系列模型,包含稠密架构和 MoE 架构,参数规模从 0.6B 到 235B。Qwen3 将“思考模式”(用于复杂、多步推理)和“非思考模式”(用于快速、上下文驱动的响应)整合入统一框架,无需切换模型。同时引入“思考预算”机制,用户可自适应地分配计算资源。实验评估表明,Qwen3 在代码生成、数学推理、智能体任务等多个基准测试上取得了业界领先的成果。

技术要点

  • 双模式统一架构:集成“思考 / 非思考”模式,动态切换无需加载不同模型。
  • 思考预算机制:支持用户控制推理深度(token 预算),兼顾性能与延迟。
  • 强指导弱蒸馏机制
    • 旗舰模型(最大稠密Qwen3-32B和Qwen3-235B-A22B)采用完整后训练流程;
    • 轻量模型由旗舰模型蒸馏,高效提升推理与对齐能力,显著减少训练成本。
  • 大规模多语训练:语言覆盖从 29 种扩展至 119 种,跨语言能力显著增强。
  • 长上下文处理能力:支持最长 32K token 输入,并可继续扩展。
  • 通用 RL 奖励体系 :构建涵盖格式、指令、风格、工具使用等 20+ 任务的 RL 奖励系统。

1. 模型架构

1.1 模型规模与结构

  • 稠密模型系列
    Qwen3-0.6B、1.7B、4B、8B、14B、32B
  • MoE 模型系列
    • Qwen3-30B-A3B
    • 旗舰模型 Qwen3-235B-A22B(235B 总参数,22B 激活)
  • 基础架构
    • Transformer架构(同 Qwen2.5)
    • Grouped Query Attention (GQA)
    • SwiGLU 激活函数
    • 旋转位置编码(RoPE)
    • RMSNorm + 预归一化
    • 相比Qwen2.5移除 QKV-bias,引入 QK-Norm 提升稳定性
  • MoE 特性
    • 128 个专家,每 token 激活 8 个
    • 移除共享专家,采用全局批次负载均衡损失提升专家专精性
    • 在这里插入图片描述

1.2 思维模式机制

  • 双模式融合:支持“思考模式”(复杂推理)与“非思考模式”(快速响应),通过 <think> 标签动态切换,无需加载不同模型。
    在这里插入图片描述

  • 思考预算控制:用户可设定推理 token 预算,达到预算后自动结束思考(通过添加如下Prompt到think中并直接结束思考)并输出结果。

<think>…Considering the limited time by the user, 
I have to give the solution based on the thinking directly now.</think>

2. 训练流程

完整训练流程如下图所示:

  • 对于旗舰模型(Qwen3-32B和Qwen3-235B-A22B),采用完整的四阶段后训练;
  • 对于轻量级模型(Qwen3-0.6B/1.7B/4B/8B/14B/30B-A3B),则采用从旗舰模型蒸馏得到,节省算力,提升性能。

在这里插入图片描述

2.1 预训练阶段(Pre-training)

数据规模与构成

  • 总 Token 数:36T
  • 语言覆盖:29 → 119 种语言与方言
  • 数据来源
    • 真实文本(PDF OCR + 精炼)
    • 合成数据(Qwen2.5-Coder、Qwen2.5-Math 等模型生成)
    • 教材、QA、指令、代码、多语种文本

三阶段预训练

  1. 通用阶段:30T tokens,序列长 4,096
  2. 推理阶段:聚焦 STEM/代码/推理,额外 5T tokens
  3. 长上下文阶段
    • 数千亿 tokens,最大上下文扩展至 32k
    • 引入 ABF 技术、YARN 与 Dual Chunk Attention

2.2 后训练阶段(Post-training)

四阶段流程

  1. Long-CoT 冷启动:构建复杂问题集,人工筛选+多轮过滤,高质量 CoT 微调;
  2. Reasoning RL:在强推理任务上使用 GRPO 算法优化,稳定提升数学等复杂推理等任务表现;
  3. 思考模式融合:微调融合数据,引入 chat 模板,使用/think//no think控制模式;
  4. 通用强化学习:构建20+奖励任务,结合规则、参考答案(Qwen2.5-72B-Instruct打分)、偏好评分(RLHF数据集)三种奖励方式,旨在提升泛化、稳定性与对齐能力。

强指导弱蒸馏

  • 离线策略蒸馏:模仿教师模型响应;
  • 在线策略蒸馏:最小化与教师 logits 的 KL 散度;
  • 优势:GPU 使用成本仅为 RL 的 1/10。

3. 评测与性能

3.1 评估维度

  • 通用任务:MMLU、BBH、SuperGPQA等
  • 推理任务:GSM8K、MATH、GPQA等
  • 编程任务:LiveCodeBench、BFCL v3、Codeforces Elo等
  • 多语言任务:MMMLU、INCLUDE、MT-AIME、MLogiQA等
  • 对齐评估:IFEval、Arena-Hard、WritingBench等

3.2 关键结果

旗舰模型

  • Qwen3-235B-A22B
    • 思考模式:在 23 个任务中,17 个超越 DeepSeek-R1(仅 60% 激活参数)
    • 非思考模式:在 23 个任务中,18 次胜过 GPT-4o (2024-11-20)
    • 总体性能优于所有开源模型,接近或超过部分闭源模型

在这里插入图片描述

  • Qwen3-32B
    • 思考模式:超越 QwQ-32B,接近 OpenAI o3-mini
    • 非思考模式:非思考模式超过 Qwen2.5-72B-Instruct,但参数仅不到72B一半。

在这里插入图片描述

轻量模型(0.6B–14B & MoE 30B)

  • 超越同规模模型,多项任务表现优异,Qwen3各个规格模型表现与Qwen2.5更大一个规格的模型相当;
  • 蒸馏方法显著提升代码与数学性能;

在这里插入图片描述

4. 讨论

更高的预算带来更好的效果

本文实验了不同的思考预算下,复杂推理任务的性能表现。基本表现出更高的思考预算带来更好的性能表现这一现象。

在这里插入图片描述

复杂推理 vs. 通用能力

强化学习阶段后,复杂推理能力达到峰值;然而,在Stage 4通用强化学习后,复杂推理略有下降,但通用任务表现提升。
在这里插入图片描述

蒸馏效果优于 RL

在这里插入图片描述

对轻量模型而言,离线+在线蒸馏在性能提升与资源消耗上均优于纯 RL 方法(仅1/10 GPU hours)。

5 总结

Qwen3 在模型架构、思考控制、训练策略与多语言能力上均实现了重要突破,体现了开放预训练模型在智能推理、任务泛化与效率平衡之间的新进展。尤其是通过思考预算机制与强指导弱蒸馏策略,展示了将大模型能力压缩迁移至轻量模型的可行路径,为未来实际部署提供了重要借鉴。

相关文章:

  • NLP学习路线图(四):Python编程语言
  • # 深入解析BERT自然语言处理框架:原理、结构与应用
  • 基于 ZU49DR FPGA 的无线电射频数据采样转换开发平台核心板
  • Java 大视界 -- 基于 Java 的大数据分布式存储在视频会议系统海量视频数据存储与回放中的应用(263)
  • 基于SpringBoot的美食分享平台设计与开发(Vue MySQL)
  • macOS专业用户远程操作全场景优化指南:开发运维协同、安全合规与性能提升实战
  • Spring Cloud Gateway高并发限流——基于Redis实现方案解析
  • 梳理Spring Boot中三种异常处理
  • 消费类,小家电产品如何做Type-C PD快充快速充电
  • 一台机器怎么部署k8s集群
  • 实现FAT12文件管理
  • 我爱学算法之—— 二分查找(中)
  • 小米2025年校招笔试真题手撕(一)
  • 【数据结构与算法】LeetCode 每日三题
  • 小米15周年战略新品发布会:多领域创新突破,构建科技生态新蓝图
  • Spring核心原理:动态数据源切换的企业级解决方案
  • java(基础)面向对象
  • CentOS7/Ubuntu SSH配置允许ROOT密码登录
  • 英语学习5.21
  • 容器化与云原生安全
  • 一个新的网站怎么做SEO优化/近期时事新闻10条
  • 外包公司做网站有哪些内容/深圳网络推广代运营
  • 网站群建设的必要性/sem和seo有什么区别
  • 青海网站制作的公司/东莞做网站排名优化推广
  • dw如何做网站界面/3天引流800个人技巧
  • 南阳医疗网站建设公司/8大营销工具