当前位置：首页 > news >正文

(Arxiv-2025)Qwen2.5-VL 技术报告

news 来源：原创 2025/6/30 6:38:28

Qwen2.5-VL 技术报告

paper是Qwen Team发布在Arxiv 2025的工作

paper title:Qwen2.5-VL Technical Report

Code：链接

Abstract

我们介绍 Qwen2.5-VL，这是 Qwen 视觉语言系列的最新旗舰模型，在基础能力和创新功能方面均实现了重大突破。Qwen2.5-VL 在理解与交互方面迈出了关键一步，具备增强的视觉识别能力、精确的目标定位、强大的文档解析能力以及对长视频的理解能力。Qwen2.5-VL 的一大亮点是其能够准确地通过边界框或点进行目标定位。它能够稳健地从发票、表单、表格中提取结构化数据，并能对图表、示意图和页面布局进行细致分析。为处理复杂输入，Qwen2.5-VL 引入了动态分辨率处理和绝对时间编码，使其能够处理不同尺寸的图像以及长达数小时的视频，并实现以秒为单位的事件定位。这使模型能够天然感知空间尺度与时间动态，无需依赖传统的归一化技术。通过从零开始训练原生的动态分辨率 Vision Transformer（ViT），并引入窗口注意力机制（Window Attention），我们在保持原生分辨率的同时显著降低了计算开销。因此，Qwen2.5-VL 不仅在静态图像和文档理解中表现卓越，还能作为交互式视觉智能体进行推理、使用工具、执行任务，广泛应用于真实世界场景，如操作电脑和移动设备等。该模型在无需针对任务的微调条件下，在各个领域均表现出强大的泛化能力。Qwen2.5-VL 提供三种尺寸，覆盖从边缘 AI 到高性能计算的多样化应用场景。其中旗舰版 Qwen2.5-VL-72B 与 GPT-4o 和 Claude 3.5 Sonnet 等当前最先进模型相媲美，尤其在文档和图表理解方面表现突出；中小尺寸模型 Qwen2.5-VL-7B 与 Qwen2.5-VL-3B 也超越了同类竞品，在资源受限的环境中仍具备强大能力。此外，Qwen2.5-VL 保持了 Qwen2.5 大语言模型的核心语言能力，具备稳健的语言表现。

1 Introduction

大型视觉语言模型（LVLMs）（OpenAI, 2024；Anthropic, 2024a；Team 等, 2023；Wang 等, 2024f）代表了人工智能领域的关键性突破，标志着多模态理解与交互方式的深刻变革。通过将视觉感知与自然语言处理无缝整合，这些先进模型正在从根本上重塑机器在各类复杂场景中解读与分析信息的方式。尽管多模态大语言模型已取得显著进展，但当前的能力仍可类比为夹心饼干中的中间层——在多个任务中表现尚可，但仍未达到卓越水平。其中，细粒度视觉任务构成了该比喻中的底层。在本次 Qwen2.5-VL 的版本中，我们致力于探索细粒度感知能力，以构建 LVLM 的坚实基础，并打造可用于真实世界应用的智能代理系统。对应地，框架的顶层是多模态推理，得益于最新的 Qwen2.5 LLM 和多模态问答数据构建。

众多工作推动了多模态大模型的发展，主要体现在架构设计、视觉输入处理以及数据策划等方面。其中，架构创新是 LVLM 不断进步的核心动力之一。（Alayrac 等, 2022；Li 等, 2022a；2023b；Liu 等, 2023a；2023b；Wang 等, 2024i；Zhang 等, 2024b；Wang 等, 2023）等研究逐步塑造了当前主流范式：视觉编码器 + 跨模态投影器 + 大语言模型（LLM）。与此同时，细粒度感知模型也成为关键方向，如（Xiao 等, 2023；Liu 等, 2023c；Ren 等, 2024；Zhang 等, 2024a；2024d；Peng 等, 2023；Deitke 等, 2024）推动了视觉理解精度的边界。Omni（Li 等, 2024g；2025b；Ye 等, 2024）与 MoE（Riquelme 等, 2021；Lee 等, 2024；Li 等, 2024c；2024h；Wu 等, 2024b）的架构设计也为 LVLM 的未来演进带来灵感。此外，视觉编码器改进（Chen 等, 2023；Liu 等, 2024b；Liang 等, 2025）和分辨率扩展（Li 等, 2023a；2023c；Ye 等, 2023）在提升视觉理解质量方面也起到了关键作用。数据策划方面，涵盖更多多样场景与更高质量的样本，是训练先进 LVLM 的基础，（Guo 等, 2024；Chen 等, 2024a；2024d；Liu 等, 2024a；Tong 等, 2024；Li 等, 2024a）等工作的努力极具价值。

尽管进展显著，视觉语言模型当前仍面临发展瓶颈，包括计算开销大、上下文理解有限、细粒度视觉感知能力弱、序列长度变化下表现不稳定等问题。

本报告介绍了最新的开源模型 Qwen2.5-VL，它延续了 Qwen 系列的开源精神，在多个基准上实现或超越了顶级闭源模型的表现。
技术上，我们的贡献包括以下四点：
(1) 在视觉编码器中引入窗口注意力机制（Window Attention），以优化推理效率；
(2) 提出动态 FPS 采样，将动态分辨率扩展至时间维度，从而支持不同采样率下的视频理解；
(3) 在时间域升级 MRoPE，使其对齐至绝对时间，促进更复杂的时间序列建模；
(4) 在预训练与监督微调中进行了高质量数据策划，预训练语料规模从 1.2 万亿扩展至 4.1 万亿 token。

Qwen2.5-VL 的核心亮点如下：

• 强大的文档解析能力：Qwen2.5-VL 将文本识别能力拓展为通用文档解析，擅长处理多场景、多语言以及多格式（手写、表格、图表、化学式、乐谱等）文档；

• 精准的跨格式目标定位：支持边界框和点的检测、定位与计数，兼容绝对坐标与 JSON 格式，具备更强的空间推理能力；

• 超长视频理解与细粒度定位能力：将原生动态分辨率扩展至时间维度，可理解长达数小时的视频，并以秒级粒度提取关键事件片段；

• 增强的计算与移动代理功能：通过先进的定位、推理和决策能力，Qwen2.5-VL 拥有强大的在智能手机与电脑上的交互执行能力。

图 1：Qwen2.5-VL 框架展示了视觉编码器与语言模型解码器在处理多模态输入（包括图像与视频）方面的集成能力。视觉编码器被设计为可处理原始分辨率输入，并支持动态 FPS 采样。不同尺寸的图像以及不同帧率的视频帧被动态映射为长度可变的 token 序列。值得注意的是，MRoPE 在时间维度上将时间 ID 与绝对时间对齐，使模型能够更好地理解时间动态特征，如事件节奏与精确时刻定位。处理后的视觉数据随后被送入 Qwen2.5 语言模型解码器中。我们对视觉 Transformer（ViT）架构进行了重新设计，融合了多种先进模块，如使用 SwiGLU 激活函数的前馈网络（FFN）、RMSNorm 归一化方法，以及基于窗口的注意力机制，以提升模型的性能与效率。

2 Approach

在本节中，我们首先概述 Qwen2.5-VL 系列模型的架构更新，并提供关于数据与训练细节的总体说明。

2.1 Model Architecture

Qwen2.5-VL 的整体模型架构由三个组件构成：

大型语言模型（Large Language Model）：Qwen2.5-VL 系列以大语言模型作为基础组件，初始化自 Qwen2.5 LLM 的预训练权重。为更好地适应多模态理解的需求，我们将原本的一维旋转位置编码（1D RoPE）修改为对齐绝对时间的多模态旋转位置编码（Multimodal Rotary Position Embedding Aligned to Absolute Time）。

视觉编码器（Vision Encoder）：Qwen2.5-VL 的视觉编码器采用重新设计的 Vision Transformer（ViT）架构。从结构上看，我们引入了二维 RoPE（2D-RoPE）和窗口注意力机制（Window Attention），以支持原生输入分辨率，并加速整个视觉编码器的计算过程。在训练和推理阶段，输入图像的高和宽会被调整为 28 的倍数，然后送入 ViT。视觉编码器通过以步长为 14 对图像进行切块（patching）来处理图像，并生成一组图像特征。关于视觉编码器的详细介绍将在第 2.1.1 节展开。

基于 MLP 的视觉-语言融合模块（MLP-based Vision-Language Merger）：为了解决图像特征序列较长所带来的计算效率问题，我们采用了一种简单而高效的方式，在将图像特征送入大语言模型（LLM）之前进行压缩。具体而言，我们并不直接使用 ViT 提取的原始 patch 特征，而是先将空间上相邻的四个 patch 特征进行分组，将这些分组特征拼接后送入一个两层的多层感知机（MLP），将其投影到与 LLM 中使用的文本嵌入维度一致的空间中。这种方法不仅降低了计算开销，也为动态压缩不同长度的图像特征序列提供了灵活的解决方案。

在表 1 中，详细列出了 Qwen2.5-VL 的架构与配置。

表1 Qwen2.5-VL 的架构与配置。

2.1.1 Fast and Efficient Vision Encoder

视觉编码器在多模态大语言模型（MLLMs）中扮演着关键角色。为应对原生分辨率输入在训练与推理过程中带来的计算负载不均衡问题，我们重新设计了 Vision Transformer（ViT）架构。传统方法在处理不同尺寸图像时存在计算复杂度随图像面积二次增长的问题。为缓解这一问题，我们在多数层中引入了窗口注意力机制，使得计算成本随 patch 数量线性增长而非平方增长。在我们的架构中，只有前几层使用完整自注意力机制，其余层则采用最大窗口大小为 112×112（对应 8×8 patch）的窗口注意力。小于 112×112 的区域无需填充，保持其原始分辨率。这一设计使模型能在原生输入分辨率下运行，避免了不必要的缩放或失真。

在位置编码方面，我们采用二维旋转位置编码（2D RoPE），以有效捕捉二维空间中的空间关系。为了更好地处理视频输入，我们将该方法扩展为三维 patch 划分。具体而言，我们采用 14×14 图像 patch 作为基本单元，与传统静态图像 ViT 一致。对于视频数据，我们将连续两个帧进行拼接，从而显著减少输入语言模型的 token 数。这一设计不仅保持了对现有架构的兼容性，同时在处理视频序列时提升了效率。

为简化整体网络结构，我们使 ViT 架构更加贴近大语言模型（LLMs）的设计原则。具体而言，我们采用 RMSNorm（Zhang & Sennrich, 2019）作为归一化方式，并使用 SwiGLU（Dauphin et al., 2017）作为激活函数。这些选择提升了计算效率，并增强了视觉与语言模块之间的协同适配能力。

在训练方面，我们从零开始训练重新设计的 ViT，训练过程包括多个阶段，如 CLIP 预训练、多模态对齐训练以及端到端微调。为了在不同输入分辨率下保持模型鲁棒性，我们在训练中采用了动态采样策略，根据图像的原始宽高比进行随机采样，使模型能有效泛化到多种分辨率的输入。这种方法不仅提升了模型的适应能力，也确保了在不同尺寸视觉数据上的训练稳定性与效率。

2.1.2 Native Dynamic Resolution and Frame Rate

Qwen2.5-VL 在空间和时间两个维度上均引入了新进展，以有效处理多样的多模态输入。

在空间域中，Qwen2.5-VL 能够动态地将不同尺寸的图像转换为对应长度的 token 序列。与传统坐标归一化方法不同，Qwen2.5-VL 直接使用输入图像的实际尺寸来表示边界框、关键点等空间特征。这种方式使模型能够内在地学习尺度信息，从而提升其在多分辨率图像上的处理能力。

对于视频输入，Qwen2.5-VL 引入了动态帧率（FPS）训练和绝对时间编码。通过适应不同的帧率，模型能够更好地捕捉视频内容的时间动态。与其他使用文本时间戳或引入额外头部来实现时间对齐的方法不同，我们提出了一种新颖而高效的策略，将 MRoPE 的 ID 直接与时间戳对齐。这种方法使模型能够通过时间 ID 之间的间隔理解时间节奏，无需额外的计算开销。

2.1.3 Multimodal Rotary Position Embedding Aligned to Absolute Time

位置嵌入在建模视觉与语言模态中的序列数据方面至关重要。在 Qwen2-VL 中，我们在多模态旋转位置嵌入（MRoPE）的基础上进行了扩展，以更好地处理视频中的时间信息。

Qwen2-VL 中的 MRoPE 将位置嵌入分解为三个不同的分量：时间、高度和宽度，从而有效地建模多模态输入。对于文本输入，三种分量共用相同的位置 ID，因此 MRoPE 在功能上等价于传统的一维 RoPE（Su 等，2024）。对于图像，所有视觉 token 的时间 ID 保持不变，而高度和宽度分量则根据每个 token 在图像中的空间位置分配唯一 ID；对于视频，视频被视为帧的序列，时间 ID 随帧递增，而高度与宽度的分配方式与静态图像一致。

然而，在 Qwen2-VL 中，MRoPE 的时间位置 ID 原本仅与输入帧的数量相关，未能考虑内容变化速度或视频事件发生的绝对时间。为了解决这一限制，Qwen2.5-VL 引入了关键改进：将 MRoPE 的时间分量与绝对时间对齐。如图 1 所示，借助时间 ID 间隔的对齐，模型能够在不同帧率采样的视频中学习一致的时间对齐效果。

2.2 Pre-Training

在本节中，我们首先介绍预训练数据集的构建方式，随后概述整体训练流程与配置。

2.2.1 Pre-Training Data

与 Qwen2-VL 相比，我们显著扩展了预训练数据的规模，从 1.2 万亿 token 增加到约 4 万亿 token。我们的预训练数据集通过多种方式构建，包括清洗原始网页数据、合成数据等。数据集涵盖了多种多模态数据类型，例如图像描述、图文混排数据、OCR 数据、视觉知识（如名人、地标、动植物识别）、多模态学术题目、本体定位数据、文档解析数据、视频描述、视频定位，以及基于智能体交互的数据。在整个训练过程中，我们在不同阶段精心调整了这些数据类型的组成及比例，以优化学习效果。

图文混排数据
图文混排数据对于多模态学习至关重要，具有三大核心优势：（1）在上下文中同时呈现视觉和文本线索，实现“in-context”学习（Alayrac et al, 2022）；（2）当图像缺失时，保持良好的文本能力（Lin et al, 2024）；（3）包含广泛的一般信息。然而，大量可用的图文混排数据缺乏有效的图文关联，噪声较大，限制了其在复杂推理与创作生成中的实用性。

为解决这些问题，我们开发了一套数据评分与清洗流程，以确保仅使用高质量且相关性强的图文混排数据。该流程分为两步：第一步是标准的数据清洗（参考 Li et al, 2024e），第二步是基于内部评估模型的四阶段打分系统。评分标准包括：（1）文本质量，（2）图文相关性，（3）图文互补性，（4）信息密度平衡。该流程显著提升了模型在复杂推理和多模态内容生成中的表现能力。

以下是图文打分标准的解释：

图文相关性：得分越高，表示图像与文本之间联系越紧密，图像能有效补充、解释或扩展文本，而非仅作为装饰。
信息互补性：得分越高，图像与文本提供的内容越互补，双方各有独立信息，组合后构成完整语义。
信息密度平衡：得分越高，图像与文本信息量更均衡，避免一方信息量过载，保持合理的图文比重。

绝对位置坐标的基础锚定数据
我们采用原始分辨率训练，目的是更准确地感知现实世界。而相对坐标难以有效表达对象在图像中的真实大小与位置。为解决这一限制，Qwen2.5-VL 在训练时使用基于输入图像实际尺寸的坐标值来表示边界框与点位，从而帮助模型更好地捕捉真实尺度与空间关系，在目标检测与定位任务中表现更优。

为了提升锚定能力的泛化性，我们构建了一个包含边界框与点位+指代表达的全面数据集，结合公开数据与私有数据。我们通过合成多种格式的数据（包括 XML、JSON、自定义格式），并结合 copy-paste 增强（Ghiasi et al, 2021）、预训练模型如 Grounding DINO（Liu et al, 2023c）与 SAM（Kirillov et al, 2023）生成新样本，用于强化锚定能力。

为提升模型在开放词汇检测中的效果，我们将训练集扩展至 10,000+ 个对象类别。同时，为增强极端检测场景下的能力，我们在查询中合成“虚构类别”，并构建包含每种类别多个实例的图像数据。

为了构建强大的点位锚定能力，我们构建了一个包含公开和合成数据的全面点指数据集。数据源包括 PixMo（Deitke et al, 2024）中的公开点指与计数数据、公开的目标检测与实例分割数据，以及我们自动生成的用于高精度指向图像细节的数据。

文档全能解析数据
为了训练 Qwen2.5-VL，我们构建了一个大型文档数据集。传统文档解析方法通常需依赖多个独立模块来完成版面分析、文本提取、图表解析与插图理解。而 Qwen2.5-VL 致力于构建一个具备通用解析、理解和格式转换能力的多模态模型。

我们在数据构建中加入了多样元素，如表格、图表、公式、自然或合成图像、乐谱、化学式等，并统一用 HTML 格式标注，这种格式整合了布局信息与图例描述，嵌入于 HTML 标签结构中。我们进一步根据典型阅读顺序丰富文档布局，并为每个模块（如段落或图表）加入对应坐标。该创新方式使得文档的完整信息——包括布局、文本、图表与插图——都可以标准化表示，从而让 Qwen2.5-VL 能够高效、准确地理解与转换复杂文档。

以下是 QwenVL 的 HTML 格式（QwenVL HTML format）：

该格式确保所有文档元素以结构化、可访问的方式表示，使 Qwen2.5-VL 能够高效地处理与理解文档内容。

OCR 数据
我们收集并整理了来自不同来源的 OCR 数据，以增强模型的文本识别能力，包括合成数据、开源数据以及自有数据。合成数据通过视觉文本生成引擎生成，以获得高质量的野外场景文本图像。为了支持更广泛的语言种类并提升多语言能力，我们引入了大规模多语言 OCR 数据集，涵盖法语、德语、意大利语、西班牙语、葡萄牙语、阿拉伯语、俄语、日语、韩语和越南语等多种语言。该数据集通过高质量的合成图像和真实世界自然场景图像的组合，确保了多样性与高质量，从而提升模型在多语言环境中的鲁棒性，以及对不同文本外观和环境条件的适应能力。

在图表类数据方面，我们使用可视化库如 matplotlib、seaborn 和 plotly 合成了 100 万个样本，涵盖柱状图、关系图和热力图等类别。

在表格数据方面，我们处理了 600 万个真实世界的样本，使用离线的端到端表格识别模型，并剔除了置信度较低、表格重叠或单元格密度不足的数据。

视频数据
为了增强模型对不同帧率（FPS）视频的鲁棒性，我们在训练过程中动态采样不同帧率，使训练集中的 FPS 分布更加均匀。此外，对于时长超过半小时的视频，我们通过一个定制的合成管道，构造了多帧描述，形成一套长视频字幕数据。在视频定位数据方面，我们设计了以秒为单位以及“时-分-秒-帧（hmsf）”格式的时间戳，以确保模型可以理解和输出多种时间格式。

Agent 数据
为了构建 Qwen2.5-VL 的 Agent 能力，我们增强了模型的感知与决策能力。在感知方面，我们收集了来自移动端、网页端和桌面端的截图，并使用合成数据引擎生成截图描述以及 UI 元素的定位标注。描述任务帮助模型理解图形界面，而定位任务则使其能对界面元素的外观与功能进行对齐。

在决策方面，我们首先将移动端、网页端和桌面端的操作统一为具有共享动作空间的函数调用格式。我们将从开源数据和 Agent 框架（Wang et al., 2025; 2024b;c）在虚拟环境中采集的多步操作轨迹，整理成函数格式，并为每一步生成推理过程。这一过程由人类与模型标注者完成：在已知操作的前提下，我们在截图上标注该操作，然后提供全局查询及操作前后的截图，要求标注者撰写推理内容来解释该操作的意图。我们使用模型筛选器过滤低质量推理内容。这类推理数据可防止模型对特定操作结果过拟合，从而提升其在真实环境中的泛化能力。

表 2：各阶段训练数据的规模与组成。

2.2.2 Training Recipe

我们使用 DataComp（Gadre 等人，2023）和一些内部数据集从零训练了一个视觉 Transformer（ViT）作为视觉编码器的初始化，同时采用预训练的 Qwen2.5 大型语言模型（LLM）（Yang 等人，2024a）作为 LLM 组件的初始化。如表 2 所示，预训练过程分为三个不同阶段，每个阶段采用不同的数据配置和训练策略，以逐步增强模型的能力。

在第一阶段，仅训练视觉 Transformer（ViT），以提升其与语言模型的对齐能力，为多模态理解打下坚实基础。该阶段的主要数据来源包括图像描述、视觉知识和 OCR 数据。这些数据集经过精心筛选，以增强 ViT 提取与文本信息有效整合的有意义视觉表示的能力。

在第二阶段，解冻所有模型参数，对模型进行训练，使用多模态图像数据以增强其处理复杂视觉信息的能力。该阶段引入更复杂和推理密集型的数据集，例如交错图文数据、多任务学习数据集、视觉问答（VQA）、多模态数学、基于代理的任务、视频理解和纯文本数据集。这些数据集加强了模型在视觉与语言模态之间建立更深层联系的能力，使其能够处理日益复杂的任务。

在第三阶段，为了进一步增强模型在更长序列、视频和基于代理的任务上的推理能力，引入了上述数据，并增加了序列长度。这使得模型能够更精确地应对更高级和更复杂的多模态任务。通过扩展序列长度，模型获得了处理需要长程依赖和复杂推理的上下文的能力。

为了应对图像尺寸和文本长度不同带来的训练期间计算负载不均问题，我们采用了一种策略来优化训练效率。主要的计算成本来自于 LLM 和视觉编码器。由于视觉编码器的参数相对较少，并且我们采用了窗口注意机制来进一步降低其计算需求，我们重点关注在不同 GPU 之间平衡 LLM 的计算负载。具体而言，我们根据输入序列长度动态打包数据样本，使其适配 LLM，确保不同长度下计算负载的一致性。在第一、第二阶段，数据被统一打包为序列长度 $8192$ ，而在第三阶段，序列长度增加至 $32768$ ，以适配模型在处理更长序列时的能力。

2.3 Post-training

Qwen2.5-VL 的后训练对齐框架采用了一个双阶段优化范式，包括监督微调（SFT）和直接偏好优化（DPO）（Rafailov 等人，2023）。这种分层的对齐策略将参数高效的领域适配与人类偏好提炼相结合，通过不同的优化目标同时解决表示层的对齐与行为层的优化问题。

监督微调（SFT）旨在通过有针对性的指令优化，弥合预训练表示与下游任务需求之间的差距。在该阶段，我们使用 ChatML 格式（OpenAI，2024）来构建指令跟随数据，有意地与预训练数据格式区分开来，同时在结构上与 Qwen2-VL（Wang 等人，2024e）保持一致。这种格式转变实现了三个关键的适配能力：1）为多模态轮次交互引入显式对话角色标签；2）在文本指令中结构化注入视觉嵌入信息；3）通过格式感知的打包方式保留跨模态的位置信息关系。通过在此增强格式下暴露于精心构建的多模态指令-响应对，SFT 实现了高效的知识迁移，同时保持了预训练特征的完整性。

2.3.1 Instruction Data

监督微调（SFT）阶段使用了一个精心策划的数据集，旨在提升模型在多种模态下的指令跟随能力。该数据集包含约 200 万条样本，纯文本数据和多模态数据各占 50%。多模态数据包括图文组合和视频文本组合，使模型能够有效处理复杂输入。值得注意的是，尽管纯文本与多模态样本数量相等，但由于视觉与时间信息的嵌入，多模态样本在训练过程中消耗了显著更多的 tokens 和计算资源。

该数据集主要由中文和英文数据构成，辅以一定量的多语言样本以支持更广泛的语言多样性。

数据集结构涵盖不同复杂度的对话交互，包含单轮对话和多轮对话形式。这些交互进一步结合不同场景，包括单图输入和多图序列输入，模拟真实的多模态对话动态。

查询语料主要来源于开源数据集，同时结合了部分精选采购数据和网络查询数据，确保了广泛覆盖和代表性。

为覆盖多种应用场景，数据集中构建了若干专项子集，包括通用视觉问答（VQA）、图像描述、数学问题求解、代码任务与安全相关问题。此外，还构建了文档与光学字符识别（Doc 和 OCR）、定位、视频分析、智能体交互等领域的数据子集，以增强模型在特定任务下的表现能力。有关数据的更多详细信息可参考论文的相关章节。

这种结构化且多样化的数据组成确保了 SFT 阶段能够有效地将预训练表示对齐到下游多模态任务的细致需求，从而促进模型具备更强的鲁棒性与上下文理解能力。

2.3.2 Data Filtering Pipeline

训练数据的质量是影响视觉语言模型性能的关键因素。

开源和合成数据集通常表现出显著的多样性，往往包含噪声、冗余或低质量样本。因此，严格的数据清洗与筛选流程对于解决这些问题至关重要。低质量数据可能导致预训练表示与下游任务需求之间的对齐效果不佳，从而降低模型在处理复杂多模态任务时的能力。因此，确保高质量数据是实现稳健可靠模型性能的前提。

为应对这些挑战，我们设计并实施了一个两阶段数据筛选流程，系统性地提升监督微调（SFT）数据集的质量。该流程包括以下两个阶段：

阶段一：领域特定分类
在第一阶段，我们使用 Qwen2-VL-Instag——一个基于 Qwen2-VL-72B 衍生的专用分类模型——对问答（QA）对进行分层分类。该模型将问答对划分为八个主领域，例如编程与规划等，并进一步细分为 30 个子类别。例如，主领域“编程”被细化为 Code_Debugging、Code_Generation、Code_Translation 和 Code_Understanding 等子类别。该分层结构支持面向领域和子领域的筛选策略，使得数据清洗流程能够根据每一类别的具体特性进行定制优化，从而提升 SFT 数据集的质量与相关性。

阶段二：领域定制筛选
第二阶段为领域定制筛选，结合了基于规则的方法和基于模型的方法，以全面提升数据质量。鉴于文档处理、光学字符识别（OCR）和视觉定位等任务领域的多样性，每个领域可能需要特定的筛选策略。以下是这些通用领域中采用的主要筛选方法概述：

基于规则的筛选使用预定义的启发式规则来剔除低质量或问题样本。
具体而言，对于与文档处理、OCR 和视觉定位任务相关的数据集，我们识别并移除了重复性模式，以避免干扰模型的学习过程并确保性能最优化。此外，合成数据和多模态场景中常见的响应不完整、被截断或格式错误的样本也会被排除。为了保持语义相关性并遵守伦理标准，所有与任务无关或可能产生有害输出的问答对也将被移除。此结构化方法确保数据集在满足任务需求的同时，符合伦理规范。

基于模型的筛选进一步利用基于 Qwen2.5VL 系列训练的奖励模型对数据集进行精炼。这些模型从多个维度对多模态问答对进行评估。
查询部分会根据其复杂度和相关性进行评分，仅保留适度具有挑战性并具备上下文相关性的示例；答案部分则从正确性、完整性、清晰度、与查询的相关性以及有用性等方面进行评价。
对于视觉定位类任务，还会特别关注是否准确解读并利用了图像信息。
这种多维度的评分机制确保只有高质量样本能够进入 SFT 阶段。

2.3.3 Rejection Sampling for Enhanced Reasoning

为补充我们结构化的数据筛选流程，我们引入了拒绝采样（rejection sampling）策略，以进一步精炼数据集并增强视觉语言模型（VLM）的推理能力。该方法对于需要复杂推理的任务尤为关键，例如数学问题求解、代码生成以及特定领域的视觉问答（VQA）。已有研究表明，引入 Chain-of-Thought（CoT，思维链）推理过程能显著提升模型的推理表现（Wei 等, 2022；DeepSeek-AI 等, 2024）。我们的后训练实验也证实了这一点，强调了结构化推理流程对获得高质量结果的重要性。

拒绝采样过程从带有真实标签的数据集开始。这些数据集经过精心挑选，涵盖需要多步推理的任务，如数学解题、代码生成及领域特定的 VQA。我们使用 Qwen2.5-VL 的中间版本对模型生成的回答进行评估，并与真实答案进行比对。只有模型输出与标准答案一致的样本才会被保留，从而确保数据集仅由高质量、准确的示例组成。

为进一步提高数据质量，我们还引入了附加约束，筛除不理想的输出内容。
具体而言，我们会排除出现语言混杂（code-switching）、篇幅过长或存在重复模式的回答。这些筛选标准确保思维链推理过程的清晰性和连贯性，对下游应用至关重要。

在视觉语言模型中应用 CoT 推理的关键挑战在于其依赖文本与视觉双模态信息。中间推理步骤可能无法充分整合视觉信息，出现忽略或误解图像线索的情况。为解决这一问题，我们开发了基于规则与模型驱动的筛选策略，用于验证中间推理步骤的准确性。

这些机制确保 CoT 推理过程中每一步都能有效融合视觉与语言模态。尽管如此，实现最佳模态对齐仍是一项持续的挑战，有待进一步研究突破。

通过拒绝采样生成的数据显著提升了模型的推理能力。通过迭代优化数据集，剔除低质量或错误样本，模型得以学习来自高保真示例的精准且连贯的推理过程。这一方法不仅增强了模型处理复杂任务的能力，也为未来视觉语言建模的改进奠定了坚实基础。

2.3.4 Training Recipe

Qwen2.5-VL 的后训练流程由两个阶段组成：监督微调（SFT）和直接偏好优化（DPO），在这两个阶段中视觉 Transformer（ViT）的参数均被冻结。在 SFT 阶段，模型在多样的多模态数据上进行微调，数据包括图文对、视频以及纯文本，来源涵盖通用 VQA、拒绝采样数据，以及文档与 OCR、定位、视频、智能体相关等专项任务数据集。DPO 阶段则专注于图文数据与纯文本数据，利用偏好数据使模型对齐人类偏好。每个样本仅被处理一次，以确保高效优化。这一简化流程在保持用户意图对齐的前提下，提升了模型的跨模态推理能力与任务特定表现。