当前位置：首页 > wzjs >正文

苏州高端网站建设公司百度搜索网

wzjs 2025/8/6 14:11:30

苏州高端网站建设公司,百度搜索网,虚拟资源下载源码wordpress,湖南湘信建设工程有限公司网站论文标题：Qwen2.5 Technical Report 论文地址：https://arxiv.org/abs/2412.15115 论文发布时间：2024年12月19日这篇论文看的还是比较爽的，基本上10分钟就看完了。而且Qwen2.5技术报告主要是从训练角度介绍和Qwen2的区别&#…

论文标题：Qwen2.5 Technical Report

论文地址：https://arxiv.org/abs/2412.15115

论文发布时间：2024年12月19日

这篇论文看的还是比较爽的，基本上10分钟就看完了。而且Qwen2.5技术报告主要是从训练角度介绍和Qwen2的区别，技术原理没有深入。

虽然Qwen并没有率先做出来推理，也没有像DeepSeek一样爆火出圈，但是但凡去看一下这几年来它开源出来的上百个模型，伟大无须多言。

Abstract & Introduction

论文介绍了Qwen2.5系列 LLM，该系列在预训练和后训练阶段均有显著改进。

预训练数据集扩展至18万亿个token，为常识、专业知识和推理能力奠定坚实基础。后训练采用监督微调和多阶段强化学习，增强人类偏好和长文本生成、结构数据分析和指令跟踪能力。

Qwen系列的三次迭代

Architecture & Tokenizer

模型架构仍然没变，为Decoder Only，只是在训练语料和训练流程上做出了改进。

Qwen2.5模型核心组件仍然为：

GQA 分组注意力
SwiGLU Swish+GLU激活
RoPE 旋转位置编码
RMSNorm 均方根归一化
DCA 双块注意力
YaRN

其开发了各种尺寸的模型：

Qwen2.5各个尺寸模型细节

Pre-training

预训练数据

与前身 Qwen2 相比，Qwen2.5 在训练前数据质量方面表现出显著增强：

（1）更好的数据筛选。利用 Qwen2-Instruct 模型作为数据质量过滤器，以评估和评分训练样本。增强功能可实现更细致的质量评估，从而提高高质量训练数据的保留率，并更有效地筛选多种语言中的低质量样本。

（2）更好的数学和代码数据。在 Qwen2.5 的预训练阶段，整合了来自 Qwen2.5-Math 和 Qwen2.5-Coder 的训练数据。

（3）更好的合成数据。为了生成高质量的合成数据，特别是在数学、代码和知识领域，利用 Qwen2-72B-Instruct 和 Qwen2Math-72B-Instruct 。通过使用专有的通用奖励模型和专门的 Qwen2-Math-RM-72B 模型进行严格过滤，进一步提高了这些合成数据的质量。

这里其实已经在蒸馏了。。

基于这些技术，开发了一个更大、更高质量的预训练数据集，从 Qwen2 中使用的 7 万亿个token扩展到 18 万亿个token。

继续探索Scaling Law

虽然以前的研究主要使用Scaling Law来确定给定计算预算的最佳模型大小，但是Qwen团队利用它们来识别跨模型架构的最佳超参数。具体来说，Scaling Law有助于确定密集模型和不同大小的 MoE 模型的关键训练参数，例如批量大小 B 和学习率 μ。

此外，利用Scaling Law来预测和比较具有不同参数计数的 MoE 模型的性能与密集的对应模型。该分析指导了对 MoE 模型的超参数配置，使能够通过仔细调整激活参数和总参数来实现与特定密集模型变体（例如 Qwen2.5-72B 和 Qwen2.5-14B）的性能相等。

长上下文预训练

Qwen2.5 采用了两阶段的预训练方法：

初始阶段具有 4096 个标记的上下文长度，然后是扩展阶段（用于较长序列）。

在最后的预训练阶段，将除 Qwen2.5-Turbo 之外的所有模型变体的上下文长度从 4096 个令牌扩展到 32768 个令牌。同时，使用 ABF 技术将 RoPE 的基本频率从 10000 增加到 1000000。

为了增强的模型在推理过程中处理较长序列的能力，实施了YARN 和 DCA。通过这些创新，序列长度容量增加了四倍，使 Qwen2.5-Turbo 能够处理多达 100 万个token，而其他模型可以处理多达 131072 个token。

后训练

与 Qwen 2 相比，Qwen 2.5 在其训练后设计中引入了两项重大改进：

（1）扩大了监督微调数据覆盖范围：监督微调过程利用了包含数百万个高质量样本的海量数据集。这种扩展专门解决了之前模型存在局限性的关键领域，例如长序列生成、数学问题解决、编码、指令跟踪、结构化数据理解、逻辑推理、跨语言迁移和健壮的系统指令。

（2）两阶段强化学习：Qwen 2.5 中的强化学习（RL）过程分为两个不同的阶段：离线强化学习 RL 和在线强化学习。

后训练技术DPO、SFT、GRPO都有用到

http://www.dtcms.com/wzjs/241653.html

相关文章：

网站建设实训个人总结3000字手机百度极速版app下载安装

dede二手车网站源码广州关于进一步优化

ppt模板去哪个网站下载阳江seo

网站与网页的关系seo网络推广排名

造价工程建设协会网站营销推广公司案例

php动态网站开发习题答案个人网站推广方法

卡盟网站制作农村电商平台有哪些

如何制作出优秀的ui设计seo优化公司

嵩明网站建设凡科建站手机版登录

有哪些优秀的个人网站论坛营销

鹤壁网站建设优化设计数学

寻找集团网站建设如何做推广和引流

创业做b2b行业网站_正确划分行业_别被建站公司忽悠成都百度seo推广

网站建设哪些字体没有版权全网优化哪家好

新网建立网站seo营销是什么

制作简历的免费网站东莞优化排名推广

网站收录了但是搜索不到公关公司

公司营销网站建设百度搜索风云榜排名

大学生网站模板50篇经典软文100字

建站之星网站和服务器地域名网址查询

html5做的网站有哪些百度数据分析工具

纪委网站建设南宁关键词排名公司

网站开发知识版权关键词优化的作用

做的网站怎么放在网上教程推广优化网站排名

网页美工设计夏霍seo搜索引擎优化试题及答案

wordpress 经典主题沈阳seo关键词

网站建设公司运营成都高端网站建设哪家好

商城购物网站建设产品宣传

树立河南平价的seo整站优化定制

bootstrap做自己的网站优化 seo