当前位置：首页 > news >正文

【基座模型】Qwen3报告总结

news 2025/11/16 2:42:28

Github: Qwen3

数据

1、预训练数据

（1）扩展语言类型和数据领域种类。
（2）数据合成：使用Qwen2.5-Vl合成读取PDF文件数据、使用Qwen2.5-math和Qwen2.5-coder合成数学想代码相关数据。

2、后训练数据

（1）长COT冷启动数据：
包含数学、代码、逻辑推理、通用STEM问题等，每个query都配备一个可验证的参考单或者基于代码的测试用例。排除了难验证（涉及多个子问题或者通用文本生成能力）和不需要COT就可以回答的问题。
（2）RL推理数据
收集3995个在冷启动没有出现过的覆盖范围广泛的数据。
（3）思考融合
构建non-thinking的SFT数据，将非思考模式融入进去。使用长思考和短思考SFT数据共共同训练。其中思考数据是使用第二阶段模型，对第一阶段模型拒采样得到。短思考数据涉及多个领域，例如：代码、数学、指令遵循、多语言、创意写作等等。设置了/think和/no_think作为模式切换标记。
（4）通用RL场景
提升通用场景泛化能力，建立了20多项不同的任务以及评分标准。主要增强：指令遵循能力、格式遵循能力、偏好对其、Agent调用工具能力、特定场景能力。

模型架构

1、模型架构集成Qwen2.5的MOE架构，不同的是设置了独立MoE模型共有128位专家，每个token有8位激活专家，而不是像Qwen2.5那样的共享专家。

训练

1、预训练

（1）第一阶段，该模型在大约30万亿个令牌上进行训练，以建立一个强大的通用知识基础，4096token长度。
（2）第二阶段，它将进一步接受知识密集型数据的训练，以增强科学、技术、工程和数学和编码等领域的推理能力，4096token长度。
（3）第三阶段，该模型在长上下文数据上进行训练，以将其最大上下文长度从4,096增加到32,768个令牌。3/4是长token，1/4是短token。

2、后训练

（1）培养思考能力：
第一个阶段使用Long-COT作为冷启动数据微调。第二步使用RL在数学和代码任务微调。GRPO时候，使用大批量和每个查询的多rollout，以及off-policy训练来提高样本效率，对训练过程是有益的。
（2）整合短思考模式到模型中：
第三步使用长COT和短COT的SFT数据，一起微调保持可具备长短COT的能力。第四步在通用任务上RL，保持通用泛化能力