当前位置: 首页 > news >正文

Qwen3技术之模型预训练

1. 引入

2025年5月,qwen推出了旗舰模型(flagship model)Qwen3-235B-A22B。并以Apache 2.0版权发布(可自由商业使用,修改代码和商用要包含原始版权)。本文对其技术报告中提到的预训练技术进行解读。

2. 预训练数据

与Qwen2.5相比,Qwen3的数据规模与数据多样性都有扩大。

a. 高质量预训练数据
(1)pdf输入Qwen2.5-VL,得到文本,再用Qwen2.5来优化文本,提高文本质量,得到T级别的tokens
(2)合成T级别token的领域数据:通过Qwen2.5,Qwen2.5-Math,Qwen2.5-Coder,生成更多不同格式的领域数据
(3)多语言标注系统大规模多label细致标注30T token数据(30T约等于120T数据)

b. 数据配比与混合
在细粒度标签上,用小模型做消融实验,来确定不同类型数据配比。

与以往在数据源或领域层面优化数据混合的研究不同,我们的方法通过在具有细粒度数据标签的小型代理模型上进行广泛的消融实验,在实例层面优化数据混合。

3. 预训练三大步骤

(1)S1:通用步骤

用30T token的数据,按4096长度进行训练

(2)S2:推理步骤

提高模型的推理能力。增加STEM和代码、推理与合成数据的比例。
在5T token的数据上用4096长度进行训练;并加速学习率衰减(动态调整学习速率)

(3)S3:长上下文步骤

长上下文数据训练。用总token数为几百B级别,长度为32k的数据。数据配比( 75%: 16k~32k ;25%: 4k~16k)。使用RoPE参数调节与其他模型结构优化技术进行训练。

4. 预训练中的超参数调节

与Qwen2.5类似
(1)超参数优化:学习速率,batch-size等
(2)通过实验,得到模型结构与训练数据、训练步骤、超参数之间的关系,根据这些关系来设置

5. 预训练模型的测评

预训练完成后,base模型的评估,包括15个数据集。主要测评四大能力(通用能力,数学与STEM,代码能力,多语言能力):
(1)235B模型达到SOTA
(2)在相同训练数据下,moe模型的效果接近dense,moe模型激活的参数还更好
(3)qwen3使用更少的参数就达到了qwen2.5更大参数模型的效果
(4)llama4参数量是qwen3-235b的两倍,但qwne3能力更强
(5)qwen3-235b只需要1/3的DeepSeek-V3的参数,就在14个测评中比DeepSeek好
(6)qwen3-235b比qwen2.5-plus用更小的参数达到更好的效果
(7)qwen3-235b比qwen2.5-72b,推理和训练成本都更低

参考

  1. qwen3技术文档,https://github.com/QwenLM/Qwen3/blob/main/Qwen3_Technical_Report.pdf
http://www.dtcms.com/a/316218.html

相关文章:

  • Redis Stream:高性能消息队列核心原理揭秘
  • 数据结构04 栈和队列
  • tensorRT配合triton部署模型
  • C语言的结构体与联合体
  • LOOP Finance:一场 Web3 共和国中的金融制度实验
  • Spring Boot 与 Ollama 集成部署私有LLM服务 的完整避坑指南,涵盖 环境配置、模型管理、性能优化 和 安全加固
  • 【数据结构入门】数组和链表的OJ题(2)
  • uv与conda环境冲突,无法使用uv环境,安装包之后出现ModuleNotFoundError: No module named ‘xxx‘等解决方法
  • SpringBoot中策略模式使用
  • tcp 确认应答和超时时间
  • mq_timedsend系统调用及示例
  • Lua语言程序设计1:基础知识、数值、字符串与表
  • DDOS攻击和CC攻击对服务器的伤害有哪些?
  • 蘑兔音乐:音乐创作的神奇钥匙​
  • AI产品经理手册(Ch9-11)AI Product Manager‘s Handbook学习笔记
  • Linux系统交叉编译:依赖、构建与实践
  • makefile的使用与双向链表
  • 使用YOLOv8-gpu训练自己的数据集并预测
  • 多传感器融合
  • 2025暑期作业
  • 企业如何用现代数仓架构挖掘新业务盈利点?AllData产品从目标、路径、结果给出答案
  • 分布式文件系统06-分布式中间件弹性扩容与rebalance冲平衡
  • 集成学习与随机森林:从原理到实践指南
  • 解决VScode无法打开本地文件夹及远程连接后无反应的问题
  • Maven和Gradle在构建项目上的区别
  • 范式集团与海博思创成立合资公司,杀入“AI+储能”赛道
  • 机器学习之KNN、贝叶斯与决策树算法
  • 【题解】P3172 [CQOI2015] 选数(倍数莫反做法)
  • 深圳多奥500KG磁力锁(DAIC-MJ-500S)技术解析与产品优势报告,应用到门禁系统坚若磐石!
  • 计算机网络 第2章通信基础(竟成)