当前位置：首页 > news >正文

【AIGC面试面经第四期】LLM-Qwen相关问答

news 2025/10/30 12:02:45

0.AIGC算法工程师面试秘籍

由AIGCmagic社区发起构建的【三年面试五年模拟】AIGC算法工程师面试秘籍，涵盖AIGC多个方向面试笔试干货经验与核心知识。
该面试面经由AIGC各个行业多位大佬参与共建，完全开源，目前已有2.4K star，欢迎大家一起学习；项目会持续更新，也欢迎大家参与共建。

GitHub地址：WeThinkIn/AIGC-Interview-Book
（涵盖AIGC、传统深度学习、自动驾驶、AI Agent、机器学习、计算机视觉、自然语言处理、强化学习、具身智能、元宇宙、AGI等AI行业面试笔试干货）
添加作者微信加入社区AIGC学习交流群：Audun-0328

1.Qwen3模型的部署及think模式开闭

在Qwen3模型中，提供两种推理模式：Thinking和非Thinking，切换方法如下：

通过代码设置Thinking模式

prompt = "Who are you."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=True,enable_thinking=False  # 关键参数，禁用 Thinking 模式
)

通过设置enable_thinking参数控制是否启用Thinking模式。

通过提示词设置Thinking模式
在输入的提示词中，于用户输入末尾添加/no_think标记，示例如下：

user
Who are you. /no_think

通过API参数设置Thinking模式

response = client.chat.completions.create(model="chat",messages=[{"role": "user", "content": "Why is the sky blue?"}],extra_body={"chat_template_kwargs": {"enable_thinking": False}},
)

参数解释：

extra_body：扩展参数字段，用于传递模型服务端支持的非标准参数。
chat_template_kwargs：控制chat_template行为的参数。
enable_thinking: False：表示不输出“思考”提示。

2.Qwen系列Embedding和Rerank模型介绍

主要特点

卓越的泛化性：Qwen3-Embedding系列在多个下游任务评估中达行业领先水平，8B参数模型在MTEB多语言Leaderboard榜单中位列第一（截至2025年6月6日，得分70.58），性能超越众多商业API服务；排序模型在各类文本检索场景表现出色，显著提升搜索结果相关性。
灵活的模型架构：提供从0.6B到8B参数规模的3种配置，满足不同场景性能与效率需求；开发者可灵活组合表征与排序模块实现功能扩展，还支持两项定制化特性：
- 表征维度自定义：允许用户根据需求调整表征维度，有效降低应用成本。
- 指令适配优化：支持用户自定义指令模板，提升特定任务、语言或场景下的性能。
全面的多语言支持：支持超过100种语言，涵盖主流自然语言及多种编程语言，具备强大的多语言、跨语言及代码检索能力，可应对多语言场景数据处理需求。

模型架构

基于Qwen3基础模型，Embedding模型和Reranker模型分别采用双塔结构和单塔结构设计，通过LoRA微调最大限度保留基础模型的文本理解能力，具体实现：

Embedding模型：接收单段文本输入，取模型最后一层「EOS」标记对应的隐藏状态向量，作为输入文本的语义表示。
Reranker模型：接收文本对（如用户查询与候选文档）输入，利用单塔结构计算并输出两个文本的相关性得分。

模型训练

Qwen3-Embedding系列模型训练继承GTE-Qwen系列的多阶段训练范式，并针对具体场景深度优化：

Embedding模型训练：采用三阶段训练架构
1. 第一阶段：通过超大规模弱监督数据进行对比学习预训练。
2. 第二阶段：基于高质量标注数据进行监督训练。
3. 最终阶段：通过模型融合策略融合多个候选模型，提升整体性能。
  该分阶段机制有效平衡模型的泛化能力与任务适配性。
Reranker模型训练：基于实验验证结果，直接采用高质量标注数据进行监督训练，提升训练效率。

特别说明：在Embedding模型的第一阶段弱监督训练中，构建了多任务适配的Prompt体系；利用Qwen3基础模型的文本生成能力，针对不同任务类型和语言特性动态生成弱监督文本对，突破传统方法依赖社区论坛或开源数据筛选的局限，实现大规模弱监督数据的高效生成。

3.Qwen3架构介绍

Qwen3密集架构模型在基本架构上与Qwen2.5相似，包括采用分组查询注意力机制（GQA）、SwiGLU激活函数、旋转位置编码（RoPE） 及带预归一化的RMSNorm；此外，研究团队移除Qwen2中使用的QKV偏置，并在注意力机制中引入QK-Norm，确保训练过程的稳定性。

延续Qwen2.5-MoE的设计理念，Qwen3实现细粒度专家分割技术：Qwen3 MoE模型配备128个专家，每个token激活8个专家；与Qwen2.5-MoE不同，Qwen3-MoE去除共享专家机制，且采用全局批量负载平衡损失函数促进专家专业化，这些创新显著提升模型在各类下游任务中的性能。

Qwen3模型沿用Qwen的tokenizer，该tokenizer实现字节级字节对编码（BBPE），词汇表规模达151,669个token。

4.Qwen3预训练数据介绍

相比Qwen2.5，Qwen3显著扩展训练数据的规模与多样性：预训练token数量增加一倍，语言覆盖范围扩大三倍。

所有Qwen3模型均在包含119种语言和方言、总计36T token的大型多样化数据集上训练，该数据集涵盖各类书籍、多语言文本和合成数据中的高质量内容。

为进一步扩充预训练语料库，研究团队采取以下措施：

利用Qwen2.5-VL模型对大量PDF类文档进行文本识别，再通过Qwen2.5模型精炼识别文本以提高质量，成功获取数T额外的高质量文本token。
利用Qwen2.5、Qwen2.5-Math和Qwen2.5-Coder模型合成数T不同格式的文本token，包括教科书、问答内容、指令文本和代码片段，涉及数十个领域。
整合更多多语言数据并引入新语言，使支持的语言数量从Qwen2.5的29种增至119种，大幅提升模型的语言覆盖范围和跨语言处理能力。

研究团队还开发了一套多语言数据标注系统，用于提高训练数据的质量与多样性；该系统已应用于大规模预训练数据集，为超过30T token提供教育价值、学科、领域和安全性等多维度标注，这些标注支持更高效的数据筛选与组合。

与以往在数据源或领域层面优化数据混合的研究不同，Qwen3通过在小型代理模型上利用细粒度数据标签进行广泛消融实验，实现实例级别的数据混合优化。

5.Qwen3预训练过程介绍

Qwen3模型的预训练分为三个关键阶段：

通用阶段（S1）：所有Qwen3模型在超过30T token上训练，使用4,096个token的序列长度；此阶段模型在语言能力和通用世界知识方面得到全面训练，训练数据覆盖119种语言和方言。
推理阶段（S2）：为增强推理能力，优化预训练语料库，提高STEM、编程、推理和合成数据的比例；模型在约5T高质量token上进一步预训练，序列长度保持4K token，同时加速学习率衰减过程。
长上下文阶段（S3）：收集高质量长上下文语料库以扩展模型的上下文处理长度；所有模型在数百亿token上预训练，序列长度达32K token（长上下文语料库中，75%文本长度为16K~32K token，25%为4K~16K token）。

延续Qwen2.5的做法，研究团队使用注意力基频扩展（ABF） 技术将RoPE的基频从10,000提升至1,000,000，同时引入YARN（Yet Another RoPE extensioN） 和双块注意力（Dual Chunk Attention，DCA） 技术，使推理阶段的序列长度处理能力提高四倍。

与Qwen2.5类似，研究团队基于上述三个预训练阶段，为最佳超参数（如学习率调度器和批量大小）预测开发了scaling law；通过系统研究模型架构、训练数据、训练阶段与最佳训练超参数的关系，最终为每个密集架构模型和MoE模型确定预测最优的学习率和批量大小策略。

6.Qwen3预训练评估介绍

Qwen3系列基础语言模型在通用知识、推理能力、数学、科学知识、编程和多语言处理方面重点评估，使用以下15个基准测试：

通用任务：MMLU（5样本）、MMLU-Pro（5样本，思维链）、MMLU-redux（5样本）、BBH（3样本，思维链）、SuperGPQA（5样本，思维链）。
数学与STEM任务：GPQA（5样本，思维链）、GSM8K（4样本，思维链）、MATH（4样本，思维链）。
编程任务：EvalPlus（零样本，HumanEval、MBPP、Humaneval+、MBPP+的平均值）、MultiPL-E（零样本，支持Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript）、MBPP-3shot、CRUXEval的CRUX-O（1样本）。
多语言任务：MGSM（8样本，思维链）、MMMLU（5样本）、INCLUDE（5样本）。

在基础模型对比方面，研究团队将Qwen3系列与Qwen2.5及其他领先开源基础模型（DeepSeek-V3 Base、Gemma-3、Llama-3、Llama-4系列）对比，以参数规模为基准；所有评估采用相同流程和设置，确保公平性。

基于整体评估结果，Qwen3基础模型表现出以下关键特点：

相比此前最先进的开源密集架构和MoE基础模型（如DeepSeek-V3 Base、Llama-4-Maverick Base、Qwen2.5-72B-Base），Qwen3-235B-A22B-Base在大多数任务中表现更优，且总参数量或激活参数量显著更少。
对于Qwen3 MoE基础模型：
- 使用相同预训练数据，仅需1/5的激活参数即可达到与Qwen3密集架构基础模型相当的性能。
- 得益于架构改进、训练token规模扩展及更先进的训练策略，以不到1/2的激活参数和更少的总参数超越Qwen2.5 MoE基础模型。
- 即使仅有Qwen2.5密集架构基础模型1/10的激活参数，也能达到可比性能，在推理和训练成本上具备显著优势。
Qwen3密集架构基础模型的整体性能与参数规模更大的Qwen2.5基础模型相当（如Qwen3-1.7B/4B/8B/14B/32B-Base分别对标Qwen2.5-3B/7B/14B/32B/72B-Base）；尤其在STEM、编程和推理基准测试中，Qwen3密集架构模型表现甚至超过参数规模更大的Qwen2.5模型。

7.Qwen3后训练Long-CoT冷启动

Qwen3的后训练流程围绕两个核心目标设计：

思维控制：整合“非思考”和“思考”两种模式，使用户能灵活选择模型是否推理，并通过设定思考过程的token预算控制推理深度。
强到弱知识蒸馏：优化轻量级模型的后训练流程，利用大规模模型的知识，显著降低小规模模型构建的计算资源和开发工作量。

Long-CoT冷启动

研究团队首先构建涵盖数学、编程、逻辑推理和一般STEM问题的综合数据集，每个问题均配有经验证的参考答案或基于代码的测试用例，作为CoT训练冷启动阶段的基础。

数据集构建采用严格的两阶段过滤流程：

查询过滤阶段
- 使用Qwen2.5-72B-Instruct识别并移除难以验证的查询（含多个子问题或要求一般文本生成的查询）。
- 过滤Qwen2.5-72B-Instruct无需CoT推理就能正确回答的查询，防止模型依赖简单模式匹配，确保数据集仅包含需深度推理的复杂问题。
- 利用Qwen2.5-72B-Instruct对每个查询的领域进行标注，保持数据集的领域均衡性。
响应过滤阶段
保留验证查询集后，使用QwQ-32B为每个剩余查询生成N个候选响应；当QwQ-32B持续无法生成正确解决方案时，由人类标注者手动评估响应准确性。对于具有正向Pass@N的查询，进一步移除以下响应：
- 产生错误最终答案的响应。
- 包含大量重复内容的响应。
- 明显缺乏充分推理而依赖猜测的响应。
- 思维过程与总结内容不一致的响应。
- 涉及不适当语言混合或风格突变的响应。
- 疑似与验证集项目过于相似的响应。

经过精细筛选的数据子集用于推理模式的初始冷启动训练；此阶段目标是建立基础推理模式，而非过度强调即时推理性能，确保模型潜力不受限制，为后续强化学习（RL）阶段提供更大灵活性和改进空间。为实现该目标，研究人员在准备阶段刻意控制训练样本数量和训练步骤。

8.Qwen3后训练推理强化学习

推理强化学习阶段使用的查询-验证器对需满足以下四个标准：

未在冷启动阶段使用过。
冷启动模型能够学习这些对。
尽可能具有挑战性。
涵盖广泛的子领域。

研究团队最终收集3,995个查询-验证器对，并采用梯度正则化策略优化（GRPO） 更新模型参数。实验发现，以下措施对训练过程有显著益处：

使用大批量大小。
提高每个查询的回滚次数。
采用离线策略训练提升样本效率。

研究人员还通过控制模型熵的稳定增长或保持稳定性来平衡探索与利用，这对维持训练稳定性至关重要。

通过这些方法，模型在单次强化学习训练过程中实现训练奖励和验证性能的持续提升，无需人工干预调整超参数；例如，Qwen3-235B-A22B模型在170个强化学习训练步骤中，AIME’24得分从70.1提升至85.1。

9.Qwen3后训练思考模式融合

思考模式融合阶段的目标是将“非思考”能力整合到先前开发的“思考”模型中；这种方法使开发者能管理和控制推理行为，同时降低为思考和非思考任务分别部署不同模型的成本与复杂性。

为实现该目标，研究团队对推理强化学习模型进行持续监督微调（SFT），并设计融合两种模式的聊天模板；研究发现，能熟练处理两种模式的模型在不同思考预算下表现一致良好。

1. SFT数据构建

SFT数据集结合“思考”和“非思考”两类数据：

“思考”数据：通过第二阶段模型对第一阶段查询进行拒绝采样生成，确保第二阶段模型性能不因额外微调而降低。
“非思考”数据：精心筛选，涵盖编程、数学、指令遵循、多语言处理、创意写作、问答和角色扮演等多种任务类型；研究人员采用自动生成的评估清单评估“非思考”数据的响应质量，并特别增加翻译任务的比例，以提高低资源语言任务的处理能力。

2. 聊天模板设计

为更好整合两种模式并使用户能动态切换模型的思考过程，研究团队为Qwen3设计专用聊天模板（表格内容未提供），具体设计：

对思考模式和非思考模式的样本，分别在用户查询或系统消息中引入/think和/no think token，使模型能根据用户输入选择相应思考模式。
对于非思考模式样本，在助手响应中保留空思考块，确保模型内部格式一致性，并允许开发者通过在聊天模板中连接空思考块禁止模型进行思考过程。

默认情况下，模型以思考模式运行，因此研究团队添加了不包含/think token的思考模式训练样本；对于复杂的多轮对话，随机在用户查询中插入多个/think和/no think token，模型响应则遵循最后遇到的token。

3. 思考预算

思考模式融合的另一重要优势是：一旦模型掌握非思考和思考模式的响应能力，会自然发展出处理中间状态的能力——基于不完整思考过程生成响应，这为实现模型思考过程的预算控制奠定基础。

具体实现中，当模型思考长度达到用户设定的阈值时，系统会手动中断思考过程并插入停止思考指令：“考虑到用户的时间有限，我现在必须直接基于当前思考给出解决方案。\n.\n\n”；插入此指令后，模型基于截至该点的累积推理继续生成最终响应。值得注意的是，这种能力并非通过显式训练获得，而是思考模式融合的自然产物。

10.Qwen3后训练通用RL

通用RL阶段旨在全面提升模型在各种场景中的能力和稳定性；为实现该目标，研究团队建立覆盖二十余种不同任务的复杂奖励系统，每种任务均配有定制评分标准。这些任务专门针对以下核心能力的增强：

指令遵循能力：确保模型准确理解并执行用户指令（包括内容、格式、长度和结构化输出等要求），提供符合用户期望的响应。
格式规范遵守：除明确指令外，模型需遵守特定格式规范；例如，通过在思考和非思考模式间切换响应/think和/no think token，并在最终输出中使用指定token（如<thinking>和</thinking>）区分思考过程和响应内容。
偏好一致性：针对开放式查询，着重提高模型的实用性、互动性和风格适配性，提供更自然、更令用户满意的体验。
智能体能力：训练模型通过指定接口准确调用工具；在强化学习迭代过程中，允许模型执行完整多轮交互并接收真实环境反馈，提高其在长期决策任务中的性能和稳定性。
专业场景适应能力：针对特定专业场景设计定制化任务；例如，在检索增强生成（RAG）任务中，引入奖励信号引导模型生成准确且上下文相关的响应，最小化幻觉风险。

为上述任务提供反馈时，研究团队采用三种不同类型的奖励机制：

基于规则的奖励：在推理RL阶段广泛应用，对指令遵循和格式规范等通用任务同样有效；精心设计的基于规则的奖励能高精度评估模型输出的正确性，防止奖励欺骗等问题。
基于参考答案的模型奖励：为每个查询提供参考答案，使用Qwen2.5-72B-Instruct根据参考答案对模型响应进行评分；该方法能更灵活处理各类任务，无需严格格式要求，避免纯规则型奖励可能出现的假负面问题。
无参考答案的模型奖励：利用人类偏好数据训练奖励模型，为模型响应分配量化分数；这种不依赖参考答案的方法能处理更广泛的查询类型，同时有效提升模型的互动性和实用性。

11.Qwen3后训练强到弱知识蒸馏

强到弱知识蒸馏流程专为优化轻量级模型设计，涵盖5个密集架构模型（Qwen3-0.6B、1.7B、4B、8B、14B）和1个MoE模型（Qwen3-30B-A3B）；这种方法不仅增强模型性能，还能有效赋予模型强大的模式切换能力。蒸馏过程分为两个主要阶段：

离策略蒸馏：初始阶段，研究团队结合教师模型在/think和/no think模式下生成的输出进行响应蒸馏；这帮助轻量级学生模型建立基本推理技能和不同思维模式间的切换能力，为后续在策略训练奠定坚实基础。
在策略蒸馏：此阶段，学生模型生成在策略序列用于微调，具体流程：
- 采样提示词，让学生模型在/think或/no think模式下生成响应。
- 通过将学生模型的logits与教师模型（Qwen3-32B或Qwen3-235B-A22B）的logits对齐，微调学生模型，以最小化KL散度（Kullback-Leibler散度）。

12.Qwen3后训练评估

为全面评估指令微调模型的质量，研究团队采用自动基准测试评估模型在思考模式和非思考模式下的性能，这些基准测试分为以下维度：

1. 通用任务

采用MMLU-Redux、GPQA Diamond、C-Eval和LiveBench（2024-11-25）等基准测试；对于GPQA-Diamond，每个查询进行10次采样并报告平均准确率。

2. 对齐评估

为评估模型与人类偏好的一致性，采用专门的基准测试套件：

指令遵循能力：通过IFEval的严格提示词准确率评估。
一般主题人类偏好一致性：通过Arena-Hard和AlignBench v1.1评估。
写作能力：通过Creative Writing V3和WritingBench评估模型的熟练度和创造力。

3. 数学与文本推理

采用高级数学基准测试（MATH-500、AIME’24、AIME’25）及文本推理任务（ZebraLogic、AutoLogi）评估；对于AIME问题（每年含第一部分和第二部分，共30题），每个问题采样64次，以平均准确率作为最终得分。

4. 智能体与编程

通过BFCL v3、LiveCodeBench（v5，2024.10-2025.02）和CodeElo的Codeforces评级测试模型在编程和基于智能体任务中的熟练度：

所有Qwen3模型在BFCL评估中使用FC格式，通过yarn部署到64K上下文长度进行多轮评估；部分基准数据取自BFCL排行榜中FC和Prompt格式的较高分。
LiveCodeBench评估中，非思考模式使用官方推荐提示词，思考模式调整提示词模板，移除“你将不会返回程序以外的任何内容”的限制，使模型可更自由思考。
为评估模型与竞争性编程专家的性能差距，使用CodeForces计算Elo评级，每个问题通过生成最多八次独立推理尝试解决。

5. 多语言能力

多语言评估涵盖四类任务：

指令遵循：通过Multi-IF评估，专注于8种关键语言。
知识评估：包括通过INCLUDE评估的区域知识（44种语言）和通过MMMLU评估的一般知识（14种语言，不含未优化的约鲁巴语）；两项基准测试仅采样原始数据的10%以提高评估效率。
数学任务：采用MT-AIME2024（55种语言）和PolyMath（18种语言）。
逻辑推理：通过MlogiQA评估，涵盖10种语言。

采样参数设置

思考模式：温度0.6、top-p值0.95、top-k值20；Creative Writing v3和WritingBench评估时，添加1.5的存在惩罚以鼓励内容多样性。
非思考模式：温度0.7、top-p值0.8、top-k值20、存在惩罚1.5。
两种模式下，最大输出长度均设置为32K token；AIME’24和AIME’25评估时延长至38K token，以提供充足思考空间。

13.Qwen-Image的主要亮点有哪些？

卓越的文本渲染能力：Qwen-Image在复杂文本渲染方面表现出色，包括多行长文本布局、段落级语义表达及精细的细节呈现；能高精度支持英语等字母语言和中文等表意文字的渲染。
一致的图像编辑性能：通过改进的多任务训练范式，Qwen-Image在编辑操作中能出色保持语义完整性和视觉真实性，实现精准且上下文协调的图像修改（如替换文字、变换风格、衣服替换等）。

扩散模型的所有操作均在由变分自编码器（Variational Autoencoder, VAE） 创造的潜空间中进行；这意味着VAE的性能直接决定模型生成质量的上限——任何在编码过程中丢失的图像细节，无论扩散主模型多么强大，都无法被恢复。因此，VAE并非简单的辅助工具，而是整个生成系统的基石。

Qwen-Image的成功（尤其是在精细文本渲染方面的卓越表现）很大程度上归功于其独特的VAE策略：未使用通用的图像VAE，而是选择兼容图像和视频的Wan-2.1-VAE架构，并在此基础上进行关键创新——冻结其共享的编码器，然后在包含大量富文本图像（如PDF、PPT、海报等）的自建高质量数据集上，专门微调（甚至重训）其图像解码器。这一策略极大提升了VAE对微小文字和精细纹理的重建保真度，为后续扩散模型的文本渲染能力打下坚实基础。

14.Qwen-Image的模型架构介绍

Qwen-Image的模型架构采用双流多模态扩散MMDiT架构，通过两条并行的处理流分别处理文本和图像信息，最终实现跨模态的联合建模。

1. 文本输入处理

文本输入的特征表征经由冻结的Qwen2.5-VL网络解析文本语义。

2. 图像输入处理

图像输入的特征表征经由VAE自编码器生成，将原始图像压缩为潜在空间的向量表示，用于后续扩散过程；该编码器采用Wan-2.1-VAE架构（单编码器、双解码器架构），即一个适用于图像和视频的共享编码器，以及针对每种模态的专用解码器；仅对图像解码器进行微调。

3. MMDiT结构优化

传统MMDiT模块中，文本标记直接拼接在扁平化的图像位置嵌入之后，未考虑两者的空间关联性，可能导致文本与图像的位置对齐不准确。Qwen-Image在此基础上引入多模态可扩展旋转位置编码（MSRoPE），具体设计：

MSRoPE从图像中心位置开始编码，增强对图像中心区域的敏感性。
将文本编码沿网格对角线排列，文本输入被视为二维张量且两个维度共享相同的位置ID，使文本与图像的位置信息在对角线上自然融合，强化文本与图像在空间语义上的关联性（例如，文本“a cute cat”会在对角线上与图像的位置信息自然融合，提升跨模态建模效果）。

15.Qwen-Image的数据清洗策略

数据清洗共分为7个阶段：

初始预训练数据筛选：将训练图像调整为256p分辨率（含多种宽高比），通过一系列过滤器去除低质量或无关图像、消除重复或近似重复图像-文本对，并排除包含色情、暴力等冒犯性内容。
图像质量增强：重点提升数据集图像质量，通过以下过滤器处理：
- “旋转过滤器”：移除因EXIF元数据显示存在明显旋转或翻转的图像。
- “清晰度过滤器”：丢弃模糊或失焦图像。
- “亮度过滤器”：排除过亮或过暗图像。
- “饱和度过滤器”：消除色彩饱和度异常高（常表明是人工渲染或不真实数字操作）的图像。
图像-文本对齐改进：为平衡训练数据分布，将数据集按标题来源分为原始标题拆分、重新标题拆分和融合标题拆分；对原始标题拆分应用中文CLIP过滤器和SigLIP 2过滤器移除不匹配的图像-文本对，还包括消除过长标题、丢弃含异常内容的标题。
文本渲染增强：将处理好的数据集按图像中文本的存在和语言分为英语拆分、中文拆分、其他语言拆分和非文本拆分，确保不同语言环境下的平衡训练；纳入合成文本渲染数据，并应用“密集文本过滤器”和“小字符过滤器”，移除文本过于密集或过小（难以准确标注和清晰渲染）的图像。
高分辨率优化：模型开始使用640p分辨率图像训练，通过“图像质量过滤器”消除有曝光过度、曝光不足、模糊、压缩伪影等质量缺陷的图像；确保所有图像满足最低分辨率要求，排除构图或视觉吸引力差的图像，移除含水印、二维码、条形码等干扰观看元素的图像。
类别平衡和肖像增强：通过错误分析识别表现不佳的类别后，将数据集重新分为通用、肖像、文本渲染三个主要类别，以便训练时进行基于类别的再平衡；利用基于关键词的检索和图像检索技术扩充数据集，增强代表性不足类别的覆盖范围；同时为提升肖像生成质量，检索真实感肖像等图像并生成强调人物细节的合成标题，还移除有面部马赛克或模糊的图像。
平衡多尺度训练：模型联合训练640p和1328p分辨率的图像，设计分层分类系统对阶段6的所有图像进行分类，在每个类别中仅保留质量和美学吸引力最高的图像；并采用专门的重采样策略平衡含文本渲染的数据，以在适应高分辨率输入的同时保留已学的通用知识并确保稳定收敛。

16.Qwen-Image的数据标注和生成

完成数据清洗后，使用Qwen2.5-VL模型进行标注，将captioning和元数据提取结合，以JSON等结构化格式生成详细信息：

标题中：捕获物体属性、空间关系等关键细节，以及可见文本的逐字转录。
结构化格式中：报告图像类型、风格、水印存在情况、异常元素等关键属性。

数据合成分为三种类型：

纯渲染：使用文本段落，利用动态布局算法将其渲染到干净背景上，生成新的图像。
组合渲染：模拟文本被书写或打印在纸张、木板等各种物理介质上，然后无缝合成到多样化背景图像中，创建视觉连贯的场景。
复杂渲染：基于预定义模板（如PowerPoint幻灯片、用户界面原型）进行程序化编辑，设计全面的基于规则的系统，在自动替换占位文本的同时，保持布局结构、对齐方式和格式的完整性。

17.Qwen-Image的预训练过程

预训练阶段采用流匹配（flow matching） 训练目标，通过常微分方程（ODE）实现稳定的学习动态，同时保持与最大似然目标的等价性。Qwen-Image还使用基于Ray的分布式框架分离数据预处理与模型训练，同时结合数据并行和张量并行，使用Transformer-Engine库实现多头自注意力的头级并行，减少同步开销。

预训练策略采用多阶段式，具体顺序如下：

从低分辨率到高分辨率。
从非文本到文本。
从大规模数据到精细化高质量的数据。
从不平衡的数据集到平衡的数据集。
从真实数据到合成数据。

18.Qwen-Image的后训练过程

后训练包括监督微调（SFT） 和强化学习（RL） 两个阶段，进一步提升模型的生成质量和指令遵循能力。

1. 监督微调（SFT）

构建分层语义类别的数据集，结合人工标注筛选清晰、细节丰富、逼真的图像，引导模型生成更真实、精细的内容。

2. 强化学习（RL）

采用两种策略：直接偏好优化（DPO）和组相对策略优化（GRPO）。

（1）DPO（直接偏好优化）

数据准备：同一提示下生成多幅图像，由人工标注最佳 $x_0^{win}$ 和最差 $x_0^{lose}$ 样本。
目标函数：基于流匹配准则，通过对比预测速度差异优化模型，公式如下：
$LDPO=−E[log⁡σ(−β(Diffpolicy−Diffref))]\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(-\beta (Diff_{\text{policy}} - Diff_{\text{ref}})\right)\right]$
其中， $DiffpolicyDiff_{\text{policy}}$ 和 $DiffrefDiff_{\text{ref}}$ 分别为当前模型和参考模型的速度误差差异， $β\beta$ 为缩放参数。

（2）GRPO（组相对策略优化）

优化逻辑：在DPO基础上进行细粒度优化，对一组生成图像 ${x_0^i\}_{i=1}^G$ 计算优势函数，通过轨迹采样和KL散度约束更新策略，公式如下：
$LGRPO(θ)=E[1G∑i=1G1T∑t=0T−1(min⁡(rtiAi,clip(rti,1−ϵ,1+ϵ)Ai)−βDKL)]\begin{aligned}\mathcal{L}_{\text{GRPO}}(\theta) &= \mathbb{E}\left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{T} \sum_{t=0}^{T-1} \left( \min(r_t^i A_i, \text{clip}(r_t^i, 1-\epsilon, 1+\epsilon) A_i) - \beta D_{\text{KL}} \right) \right]\end{aligned}$
采样改进：采样过程改为随机微分方程（SDE），引入噪声增强探索能力。

20.Qwen-Image-Edit简单介绍

Qwen-Image-Edit是Qwen-Image的图像编辑版本，基于20B的Qwen-Image模型进一步训练，成功将Qwen-Image独特的文本渲染能力延展至图像编辑领域，实现对图片中文字的精准编辑。

此外，Qwen-Image-Edit将输入图像同时输入到Qwen2.5-VL（实现视觉语义控制）和VAE Encoder（实现视觉外观控制），兼具语义与外观的双重编辑能力。

主要特性包括：

语义与外观双重编辑：既支持low-level的视觉外观编辑（如元素的添加、删除、修改等，要求图片其他区域完全不变），也支持high-level的视觉语义编辑（如IP创作、物体旋转、风格迁移等，允许整体像素变化但保持语义一致）。
精准文字编辑：支持中英文双语文字编辑，可在保留原有字体、字号、风格的前提下，直接对图片中的文字进行增、删、改等操作。
强大的基准性能：在多个公开基准测试中的评估表明，Qwen-Image-Edit在图像编辑任务上具备SOTA性能，是一个强大的图像编辑基础模型。

21.Qwen3-Embedding的模型架构介绍

架构基础：Qwen3-Embedding 和 Qwen3-Reranker 基于 Qwen3 model 的 dense 版本训练，提供3个参数规模版本：0.6B、4B、8B。
Embedding模型：
1. 利用Qwen3因果模型自带的注意力机制，在输入序列末尾附加一个**[EOS] token**，最终的嵌入向量为该[EOS] token最后一层的隐层向量。
2. 为保持任务感知，输入需拼接任务指令描述：输入query时可在前面添加instruction指定任务，输入doc时无需添加；即使在中文场景，instruction建议使用英文（因训练时使用的均为英文指令）。
Reranking模型：
1. 采用point-wise训练方式：单次输入一个源序列和一个目标序列，计算两者相似性，多次计算累加损失（区别于pair-wise训练——输入一个源序列、一个正样本序列和一个负样本序列，同时学习相对关系）。
2. 为保持任务感知，输入同样需要拼接任务指令描述。

22.Qwen3-Embedding的多阶段训练介绍

多阶段训练是Embedding模型的常用方法（BGE等模型也采用类似方案），通常先在大规模半监督数据上训练，再使用小规模高质量监督数据集微调。

相对于以往工作，Qwen3-Embedding的多阶段训练主要创新如下：

大模型弱监督训练采用合成数据：此前方法多从开源社区获取弱监督数据，而本文提出利用Qwen3模型的生成能力合成数据；大模型能高质量模仿真实世界数据，且可对数据维度（如任务、语言、长度、难度）进行更高控制，尤其能在资源匮乏的场景和语言中获取更多数据。
合成数据增强第二阶段监督微调：Qwen3生成的合成数据质量极高，因此在第二阶段有选择地纳入这些数据，进一步提升模型整体性能和泛化能力。
模型融合：借鉴机器学习竞赛常用方法，在不同任务训练得到的checkpoint上进行模型融合（此处使用球面线性插值），在可能的插值区间用部分样本找到loss最低的点，提升最终效果（可能近期在大模型上有新的优化技巧）。

注：第一阶段训练仅用于Embedding模型，Reranking模型无需此阶段。

23.Qwen3-Embedding的合成数据集介绍

借鉴前人训练Embedding模型的经验与数据积累，Qwen3-Embedding的训练数据分为三部分：

开源社区人工标注的高质量数据集：约有10M对样本，经筛选后保留7M放入第二阶段高质量SFT训练数据中。
公开的弱监督数据：数据量庞大但质量参差不齐，各领域数据分布不均衡，需大量清洗工作，因此未采用这部分数据。
合成数据：利用Qwen3模型生成，理论上可获取无限量数据。

为提高合成数据的质量并让模型适应不同任务，合成数据时按以下类别指定标准（选择这些类别因MTEB排行榜涵盖以下任务）：

检索：常规检索任务，匹配query和document。
双文本挖掘：匹配语言不同但语义相似的文本对。
分类：将文本划分到预定义类别中，学习类别间的语义边界，区分语义相似但类别不同的文本；例如按情绪类别分类时，匹配积极情绪的query，正负样本语义相似，但正样本为积极情绪，负样本为消极情绪（具体分类实现细节未明确）。
语义文本相似性：区分语义相关和语义相似的样本对；例如“狗在睡觉”和“我今天去打篮球”为不相关，“狗在睡觉”和“狗在吃饭”为相关但不相似。

查看全文

http://www.dtcms.com/a/545956.html