当前位置：首页 > news >正文

Qwen家族系列模型概述

news 2025/9/22 11:45:46

概述

参考资料：

https://github.com/QwenLM

Qwen模型展现出多方面的显著优势：

维度	Qwen2.5-Max	DeepSeek-R1	GPT-4o
参数规模	720B（MoE）	671B	1.8T
训练数据量	20万亿tokens	15万亿tokens	未公开
多语言支持	29种（含小语种）	12种	8种
工具调用准确率	95.8%	93.2%	97.1%
推理速度（FP16）	25 tokens/s(A100)	22 tokens/s	18 tokens/s
开源程度	全系列开源（含MoE）	部分模型开源	闭源

总结：

强大的多语言性能：在多种语言处理上表现出色，尤其在中文和英文领域，能够满足全球不同地区用户的需求；
开源可用性：使得开发者能够自由访问、使用和修改其代码，促进了技术的传播与创新，加速了模型的优化与功能拓展；
企业适应性：其架构和功能设计充分考虑了企业应用场景，能够较好地融入企业现有的技术体系，为企业提供定制化的人工智能解决方案；
注重代理能力：从模型设计之初便将工具使用、规划和函数调用等代理能力纳入核心发展策略，使Qwen模型在执行复杂任务时更具优势，能够模拟人类的思考与操作流程，实现自动化与智能化的任务处理。

版本

包括：

Qwen 1.0与Qwen-Chat

2023年年中，阿里云Qwen团队首次开源Qwen1.0系列，涵盖1.8B、7B、14B和72B参数的基础大型语言模型（LLM），在多达3万亿个多语言数据标记上进行预训练，重点聚焦中文和英文，其上下文窗口高达32K个标记，部分早期变体甚至达到8K。还推出通过监督微调和人类反馈强化学习（RLHF）对齐的Qwen-Chat变体。即便在这一早期阶段，Qwen模型便已展现出广泛技能，涉及对话、内容生成、翻译、编码、数学问题求解等多个领域，且能够初步使用工具或充当代理，这标志着Qwen团队在设计之初便将代理行为纳入考量，为其后续发展奠定了坚实基础。

Qwen-1.5：2024年2月发布的Qwen-1.5在模型规模上进一步拓展，引入0.5B、4B、32B、110B参数模型，并统一支持32K上下文长度。在多语言理解、长上下文推理、对齐等通用技能上实现提升的同时，其代理能力在工具使用基准测试中达到与GPT-4相当的水平，工具选择与使用准确率超过95%。

Qwen2：同年6月推出的Qwen2继承前代基于Transformer的架构，并将分组查询注意（GQA）应用于所有模型大小，提升模型推理速度并减少内存占用。2024年8月，针对特定任务的Qwen2-Math、Qwen2-Audio（用于理解和总结音频输入的音频与文本模型）、Qwen2-VL相继问世。Qwen2-VL作为重要里程碑，引入诸多创新技术，如简单动态分辨率（可处理任意分辨率图像，动态转换为可变数量视觉标记）、多模态旋转位置嵌入（MRoPE，用于在文本、图像和视频等所有模态中更好地对齐位置信息），能够处理长达20多分钟的视频，并可集成到手机、机器人等设备上。

Qwen2.5

面对DeepSeek等新兴竞争对手的挑战，于2024年9月推出Qwen2.5，包含从5亿到720亿参数的多款模型，在多达18万亿个token的大型数据集上预训练，涵盖语言、音频、视觉、编码和数学等多领域应用，支持29种以上语言，输入上下文长度达128K token，输出长度可达8K token。2025年1月发布的Qwen2.5-1M模型更是将上下文处理能力拓展至最多100万个token，处理速度提升3-7倍。

Qwen2.5-VL：作为2.5版本中的亮点，Qwen2.5-VL在数字环境中充当视觉代理，不仅能描述图像，还能与之交互，根据视觉输入进行“推理和动态指导工具”。它采用原生动态分辨率（用于图像）、动态帧速率训练和绝对时间编码（用于视频），可处理不同尺寸图像和数小时长视频，并在Qwen2-VL基础上改进MRoPE的时间分量与绝对时间对齐，实现对长视频的有效处理。Qwen2.5-VL能够控制计算机、手机等设备，完成预订航班、检索天气信息、编辑图像、安装软件扩展等任务，功能与OpenAI的Operator相似，成为多模态模型领域的一大突破。

Qwen2.5-Max：Qwen团队同期开发的Qwen2.5-Max是一个大规模混合专家（MoE）模型，在超过20万亿个token上训练，并通过监督微调（SFT）和RLHF进一步完善，性能足以与DeepSeek-V3、Llama3.1-405B、GPT-4o和Claude3.5-Sonnet等顶级大型模型相媲美甚至超越，彰显Qwen模型在高端模型领域的竞争力。

QwQ-32B推理模型：2024年11月首次亮相的QwQ-32B作为增强逻辑推理的实验预览模型，2025年3月初开始发挥重要作用。密集模型，未采用MoE结构，并支持131k的上下文长度；得益于对强化学习的有效扩展，仅拥有320亿参数的QwQ-32B性能可比肩规模大得多（671B参数，37B活动参数）的DeepSeek-R1，且优于较小的o1-mini，为具备强大推理能力的AI代理开辟可能性。

Qwen3

8个尺寸，2个MoE模型，6个密集(Dense)模型。

Qwen3-0.6B：支持手机端
Qwen3-1.7B：
Qwen3-4B：
Qwen3-8B：
Qwen3-14B：
Qwen3-30B-A3B：Qwen3-Mini，激活3B，MoE，经过后训练的模型，对应的预训练基座模型Qwen3-30B-A3B-Base，
Qwen3-32B
Qwen3-235B-A22B：旗舰模型，MoE，Qwen3-Plus，总参数235B，推理时激活22B参数

这些模型的架构类似于Qwen2.5，但进行优化和改进，包括GroupedQueryAttention、SwiGLU、Rotary Positional Embeddings和RMSNorm等。

Models	Layers	Heads(Q/KV)	Tie Embedding	Context Length
Qwen3-0.6B	28	16/8	Yes	32K
Qwen3-1.7B	28	16/8	Yes	32K
Qwen3-4B	36	32/8	Yes	32K
Qwen3-8B	36	32/8	No	128K
Qwen3-14B	40	40/8	No	128K
Qwen3-32B	64	64/8	No	128K
Qwen3-30B-A3B	48	32/4	128/8	128K
Qwen3-235B-A22B	94	64/4	128/8	128K

支持两种思考模式：

思考模式：模型会逐步推理，经过深思熟虑后给出最终答案。非常适合需要深入思考的复杂问题；
非思考模式：提供快速、近乎即时的响应，适用于那些对速度要求高于深度的简单问题。

在预训练方面，Qwen3的数据集相比Qwen2.5有了显著扩展。Qwen2.5是在18万亿个token上进行预训练的，而Qwen3使用的数据量几乎是其两倍，达到约36万亿个token，涵盖119种语言和方言。使用Qwen2.5-VL从文档中提取文本，并用Qwen2.5改进提取内容的质量。为了增加数学和代码数据的数量，利用Qwen2.5-Math和Qwen2.5-Coder这两个数学和代码领域的专家模型合成数据，包括教科书、问答对以及代码片段等。

预训练分为三个阶段：

S1：通用阶段，模型在超过30万亿个token上进行预训练，上下文长度为4Ktoken。为模型提供基本的语言技能和通用知识。
S2：推理阶段，通过增加知识密集型数据（如STEM、编程和推理任务）的比例来改进数据集，随后模型又在额外的5万亿个token上进行预训练。
S3：长上下文阶段，使用高质量长上下文数据将上下文长度扩展到32K token，确保模型能够有效地处理更长的输入。

由于模型架构的改进、训练数据的增加以及更有效的训练方法，Qwen3 Dense基础模型的整体性能与参数更多的Qwen2.5基础模型相当。Qwen3-1.7B/4B/8B/14B/32B-Base分别与Qwen2.5-3B/7B/14B/32B/72B-Base表现相当。特别是在STEM、编码和推理等领域，Qwen3 Dense基础模型的表现甚至超过更大规模的Qwen2.5模型。对于Qwen3 MoE基础模型，在仅使用10%激活参数的情况下达到与Qwen2.5 Dense基础模型相似的性能。这带来训练和推理成本的显著节省。

后训练
在这里插入图片描述
四阶段的训练流程：

长思维链冷启动：构建一个包含数学、编程、逻辑推理和一般STEM问题的综合数据集；
长思维链强化学习：使用GRPO算法更新模型参数，采用大规模批处理和高的每个查询展开次数；
思维模式融合：设计聊天模板以融合思维和非思维模式，并引入思维预算机制；
通用强化学习：建立复杂的奖励系统，涵盖超过20个不同任务，使用基于规则的奖励、基于参考答案的模型奖励和基于人类偏好的模型奖励。

强到弱蒸馏分为两个阶段：

离线蒸馏：结合教师模型的输出进行响应蒸馏。
在线蒸馏：生成在线序列进行微调，最小化KL散度。

移除参数--reasoning-parser（以及--enable-reasoning）可禁用思考模式。

软切换机制，允许用户在enable_thinking=True时动态控制模型的行为。可在用户提示或系统消息中添加/think和/no_think来逐轮切换模型的思考模式。在多轮对话中，模型会遵循最近的指令。

Qwen3-Embedding

关于embedding的入门，可参考Embedding入门概述。

Embedding
功能：Embedding 模型的核心任务是将任何文本片段（如单词、句子或整个文档）高效地编码成一个固定维度的、能捕捉其深层语义的数字向量（即 “Embedding”）。该向量是下游任务（如相似度计算、聚类、分类和向量检索）的基石。
工作原理：模型接收单个文本片段作为输入。在内部处理过程中，它会特别利用与最终结束符[EOS](End of Sentence) 标记相对应的隐藏状态向量。这个向量被认为是整个文本片段语义的高度浓缩表示，并作为最终的 Embedding 输出。

Reranker
功能： Reranker 模型（重排模型）专注于精准判断一对文本（通常是 “查询” 与 “候选文档”）之间的相关性。在典型的搜索流程中，它被用于对由 Embedding 模型初步召回的候选列表进行二次精排，从而显著提升搜索结果的最终质量和准确性。
工作原理：与生成向量的 Embedding 模型不同，Reranker 模型直接输出一个相关性分数。其评分机制独具匠心：
输入：一个文本对，例如 (query, document)。
处理：模型对文本对进行深度交互式编码。
分数计算：模型抽取其最后一层输出中，针对 yes 和 no 这两个特殊 Token 的 Logits（原始预测值）。然后，对这两个 Logits 应用 log_softmax 进行归一化，并提取yesToken 所在位置的概率分数作为最终的相关性得分（Score）。分数越接近 1，表示相关性越强。

在这里插入图片描述

embedding模型应当具备的能力

能力	相关任务	对应意义
语义表征能力	STS、分类	是否能准确理解句子含义
检索能力	检索、Rerank	是否能找到语义上相似的句子
多语言泛化能力	跨语言检索	不同语言之间语义是否对齐，英文搜索中文
聚类/结构能力	Clustering	embedding 空间是否语义组织良好
迁移泛化能力	MTEB 全面任务	是否在多个任务/数据集上都有效

Qwen3 Embedding系列模型，基于Qwen3基础模型构建的专用文本向量与重排模型。

Model Type	Models	Size	Layers	Sequence Length	Embedding Dimension	MRL Support	instruct Aware
Text Embedding	Qwen3-Embedding-0.6B	0.6B	28	32K	1024	Yes	Yes
Text Embedding	Qwen3-Embedding-4B	4B	36	32K	2560	Yes	Yes
Text Embedding	Qwen3-Embedding-8B	8B	36	32K	4096	Yes	Yes
Text Reranking	Qwen3-Reranker-0.6B	0.6B	28	32K	-	-	Yes
Text Reranking	Qwen3-Reranker-4B	4B	36	32K	-	-	Yes
Text Reranking	Qwen3-Reranker-8B	8B	36	32K	-	-	Yes

Benchmark，解读：

全面领先：Qwen3 Embedding以及Reranker模型（0.6B, 4B, 8B）在所有测试项上均显著优于Jina、gte和BGE等竞品；
性能飞跃：在多语言检索基准MMTEB-R任务，Qwen3-Reranker-4B得分高达72.74，相较于BGE-reranker-v2-m3的58.36分，提升巨大。在代码检索基准MTEB-Code上，4B和8B版本得分更是超过81.0，几乎是BGE模型的两倍。
高效选择：Qwen3-Reranker-4B模型在多个基准上表现甚至优于8B版本（如FollowIR），为开发者提供一个性能与效率俱佳的强大选项。

核心特点：

卓越的通用性与性能
Qwen3 Embedding系列在广泛的下游应用评测中均表现出SOTA性能。其向量模型在处理多种任务时效果非常强大，Qwen3-Embedding-8B模型在2025年6月5日以70.58分的成绩登顶MTEB多语言排行榜榜首。配套的Reranker模型则在文本检索场景中表现突出，能显著提升搜索结果的相关性。
全面的灵活性
该系列为向量和重排模型均提供从0.6B到8B的多种尺寸，以满足不同场景下对效率和效果的平衡需求。开发者可无缝地组合使用这两个模块。向量模型支持MRL；同时，向量和重排模型均支持指令感知（Instruction Aware），可通过自定义指令来增强在特定任务、语言或场景下的表现。
强大的多语言能力
Qwen3 Embedding系列支持超过100种语言，包括多种编程语言，提供强大的多语言、跨语言和代码检索能力，使其成为构建全球化或代码相关应用的理想选择。
创新的训练框架与架构
模型架构上，向量模型采用双编码器（dual-encoder）结构，而重排模型采用交叉编码器（cross-encoder）结构。训练上，团队沿用GTE-Qwen系列的多阶段训练范式，并做出关键创新：在弱监督训练阶段，利用Qwen3基础模型的文本生成能力，动态生成大量适配不同任务类型的弱监督数据对，有效解决传统方法在数据收集中面临的瓶颈。

MRL：Matryoshka Representation Learning，允许用户在不重新编码的情况下，根据需求（如存储成本、检索速度）灵活截取不同维度的向量（自定义输出向量维度），实现效率与效果的动态平衡。

Qwen3系列模型的卓越性能得益于其精巧的三阶段分层训练策略，确保模型兼具强大的泛化能力和任务适配性。

对比预训练阶段 (Contrastive Pre-training)：
- 目标：奠定模型广泛的语义理解基础。
- 方法：使用海量的、弱监督的（非人工精标）数据进行对比学习，让模型掌握通用的语言知识和语义关系，增强泛化能力。
精调阶段 (Fine-tuning)：
- 目标：提升模型在特定任务上的表现。
- 方法：基于预训练好的模型，采用高质量、人工标注的数据集进行监督式微调，使其在相似度判断或相关性排序等目标任务上更加精准。
模型融合阶段 (Model Merging)：
- 目标：实现性能的极致突破。
- 方法：通过先进的集成策略（如 Slerp, TIES-Merging 等），将多个在不同数据或超参数下训练出的优秀候选模型进行合并，取长补短，打造出性能超越任何单一模型的最终版本。

在这里插入图片描述

预训练模型是怎么做embedding和reranker的

1.Embedding 模型：如何生成文本向量？
它利用文本末尾的 [EOS]（结束符）作为整个文本的“语义汇聚点”。在模型处理过程中，[EOS] 标记会不断吸收并融合前方所有词语的信息。最终，这个 [EOS] 标记自身的向量表示，就被作为代表整段文本核心意义的 Embedding 输出。

Reranker 模型：如何判断相关性？
它将相关性判断巧妙地转化为一个“是非”问答任务。模型在处理“查询-文档”对后，并不直接生成分数，而是评估它回答 “yes”（是）与 “no”（否）的信心。最终，“yes” 所对应的概率值，就直接作为这对文本的相关性分数。

Qwen-Agent

Qwen-Agent框架，内部封装了工具调用模板和工具调用解析器，大大降低了代码复杂性。旨在为使用 Qwen 模型开发应用程序提供支持，使模型能够在实际环境中充当智能代理。它依托 Qwen 模型在指令遵循、工具集成、多步骤规划和长期记忆处理等方面的优势，采用模块化设计，将具备内置函数调用支持的 LLM 与外部工具组合成更高级的代理系统，为构建复杂的人工智能应用提供了灵活且强大的基础架构。

关键特性

工具集成与功能调用：该框架极大地简化定义 Qwen 模型可调用工具的过程，采用类似 OpenAI 函数调用规范的 JSON 类语法，使模型能够输出调用并接收工具执行结果。配备现成的工具插件，涵盖网页浏览、代码执行、数据库查询等多个领域，允许 Qwen模型在需要时调用计算器等工具或获取网页内容，极大地拓展模型的功能边界。
计划与记忆：代理框架为模型配备工作记忆和规划器，使其能够处理多步骤任务。Qwen-Agent 能够让模型内部规划一系列操作，而无需用户逐一提示每个步骤。例如，在处理复杂查询时，模型可自行规划搜索网络、汇总结果、起草答案等环节。同时，Qwen-Agent 可保留过去步骤的记忆，使模型能够记住工具返回的结果，并将其反馈到下一步的提示中，实现连贯且高效的任务执行。

应用示例

代码解释器集成：Qwen-Agent 内置的代码解释器使模型能够执行 Python 代码，完成数据分析、计算和可视化等任务。用户可上传文件或提供数据，Qwen 将自动编写和运行 Python 代码进行分析或生成图表，为用户提供强大的数据处理能力，类似于 OpenAI 的代码解释器功能，但目前该功能并非沙盒化，代码直接在主机环境中运行；
浏览器助手（BrowserQwen Chrome 扩展程序）：作为 Chrome 扩展程序的 BrowserQwen，利用 Qwen 模型浏览用户浏览器中的网页和文档，使用实时信息回答查询。它能够讨论或回答有关当前网页 / PDF 的问题，并保留访问页面的历史记录，汇总多页面内容以协助完成写作任务。此外，BrowserQwen 还支持插件集成，例如借助代码解释器工具直接从浏览器解决数学问题并创建数据可视化；
通过检索处理超长文档：Qwen-Agent 创新性地采用检索辅助方法，将标准的 8k 上下文聊天模型拓展至处理 1M 令牌文档。其具体实现分为三个层次：
- 第一级：检索增强生成（RAG）：将长文档分割为较小块（如 512 个标记），利用基于关键字的搜索查找最相关部分，采用传统的 BM25 检索提高效率；
- 第二级：逐块阅读：对每个块分别进行扫描，若某块相关则提取关键句子并优化搜索，避免遗漏重要细节；
- 第三级：逐步推理：将复杂查询分解为更小的子问题，逐步回答。例如，回答“哪种车辆是在贝多芬第五交响曲的同一世纪发明的？”时，系统先确定交响曲创作于 19 世纪，再搜索该时期发明的车辆。

这种多级处理机制使 Qwen-Agent 能够从海量文本中查找并处理最相关信息，有效克服基础模型在上下文长度上的限制，为处理超长文档和复杂问题提供了高效解决方案。

https://ysymyth.github.io/The-Second-Half/

其他

LiveBench

图灵奖得主Yann LeCun联合Abacus.AI、纽约大学发起，聚焦AIGC领域模型能力测评，其核心亮点在于动态防污染机制——每月基于最新数据集、arXiv论文、新闻热点和IMDb电影梗概生成新问题，覆盖6大类18项任务，形成持续更新的评估体系。该榜单被誉为「全球首个无法被操纵的LLM基准测试」。

MTEB

https://huggingface.co/spaces/mteb/leaderboard
Massive Text Embedding Benchmark，目前最权威、最广泛使用的embedding评估基准，由HuggingFace和一批研究人员发起，旨在全面衡量嵌入模型在不同下游任务中的泛化能力。包含8大类、58个任务。

查看全文

http://www.dtcms.com/a/243261.html