Qwen3技术之模型预训练
1. 引入
2025年5月,qwen推出了旗舰模型(flagship model)Qwen3-235B-A22B。并以Apache 2.0版权发布(可自由商业使用,修改代码和商用要包含原始版权)。本文对其技术报告中提到的预训练技术进行解读。
2. 预训练数据
与Qwen2.5相比,Qwen3的数据规模与数据多样性都有扩大。
a. 高质量预训练数据
(1)pdf输入Qwen2.5-VL,得到文本,再用Qwen2.5来优化文本,提高文本质量,得到T级别的tokens
(2)合成T级别token的领域数据:通过Qwen2.5,Qwen2.5-Math,Qwen2.5-Coder,生成更多不同格式的领域数据
(3)多语言标注系统大规模多label细致标注30T token数据(30T约等于120T数据)
b. 数据配比与混合
在细粒度标签上,用小模型做消融实验,来确定不同类型数据配比。
与以往在数据源或领域层面优化数据混合的研究不同,我们的方法通过在具有细粒度数据标签的小型代理模型上进行广泛的消融实验,在实例层面优化数据混合。
3. 预训练三大步骤
(1)S1:通用步骤
用30T token的数据,按4096长度进行训练
(2)S2:推理步骤
提高模型的推理能力。增加STEM和代码、推理与合成数据的比例。
在5T token的数据上用4096长度进行训练;并加速学习率衰减(动态调整学习速率)
(3)S3:长上下文步骤
长上下文数据训练。用总token数为几百B级别,长度为32k的数据。数据配比( 75%: 16k~32k ;25%: 4k~16k)。使用RoPE参数调节与其他模型结构优化技术进行训练。
4. 预训练中的超参数调节
与Qwen2.5类似
(1)超参数优化:学习速率,batch-size等
(2)通过实验,得到模型结构与训练数据、训练步骤、超参数之间的关系,根据这些关系来设置
5. 预训练模型的测评
预训练完成后,base模型的评估,包括15个数据集。主要测评四大能力(通用能力,数学与STEM,代码能力,多语言能力):
(1)235B模型达到SOTA
(2)在相同训练数据下,moe模型的效果接近dense,moe模型激活的参数还更好
(3)qwen3使用更少的参数就达到了qwen2.5更大参数模型的效果
(4)llama4参数量是qwen3-235b的两倍,但qwne3能力更强
(5)qwen3-235b只需要1/3的DeepSeek-V3的参数,就在14个测评中比DeepSeek好
(6)qwen3-235b比qwen2.5-plus用更小的参数达到更好的效果
(7)qwen3-235b比qwen2.5-72b,推理和训练成本都更低
参考
- qwen3技术文档,https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf