当前位置：首页 > news >正文

Qwen2.5-VL翻译

news 2025/9/10 2:55:57

摘要：我们介绍了Qwen2.5 - VL是Qwen视觉-语言系列的最新旗舰模式，在基础能力和创新功能方面都取得了显著的进步。Qwen2 . 5 - VL通过增强的视觉识别、精确的物体定位、健壮的文档解析和长视频理解，实现了理解和与世界交互的重大飞跃。Qwen2.5 - VL的一个突出特点是利用边界框或点精确定位物体的能力。它提供了从发票、表单和表格中提取健壮的结构化数据，以及对图表、图表和布局的详细分析。为了处理复杂的输入，Qwen2 . 5VL引入了动态分辨率处理和绝对时间编码，使其能够处理大小不一的图像和时长为(长达数小时)的视频，并进行二级事件定位。这使得模型能够自然地感知空间尺度和时间动态，而不依赖于传统的归一化技术。通过从头开始训练一个原生的动态分辨率视觉转换器( ViT )，并结合窗口注意力机制，我们在保持原生分辨率的同时显著降低了计算开销。因此，Qwen2 . 5 - VL不仅在静态图像和文档理解方面表现优异，而且作为一个交互式的视觉代理，能够在现实场景中(如操作计算机和移动设备)进行推理、工具使用和任务执行。该模型在不需要特定任务微调的情况下，实现了跨领域的强泛化性。Qwen2 . 5 - VL具有3种不同的尺寸，适用于从边缘AI到高性能计算的各种应用场景。旗舰Qwen2.5 - VL - 72B模型与GPT - 4o、Claude 3.5 Sonnet 等先进模型相当，尤其擅长于文档和图表的理解。较小的Qwen2 . 5 - Vl - 7B和Qwen2.5 - VL - 3B模型优于竞争对手，即使在资源受限的环境下也能提供强大的能力。此外，Qwen2 . 5 - VL保持了稳健的语言表现，保留了Qwen2.5 LLM的核心语言能力。
在这里插入图片描述

1. 引言

大视觉语言模型( LVLMs ) ( OpenAI , 2024 ;人类学报, 2024a ; Team et al , 2023 ; Wang et al , 2024f)代表了人工智能领域的重大突破，为多模态理解和交互提供了一种变革性的方法。通过将视觉感知与自然语言处理无缝集成，这些先进的模型正在从根本上重塑机器如何跨不同领域解释和分析复杂信息。尽管多模态大型语言模型取得了重大进展，但这些模型目前的能力可以比作夹心饼干的中间层- -能够胜任各种任务，但没有出色的表现。细粒度的视觉任务构成了这种类比的基础层。在Qwen2.5-VL的本次迭代中，我们致力于探索细粒度的感知能力，旨在为LVLMs建立坚实的基础，并为现实应用创建代理放大器。该框架的顶层是多模态推理，通过利用最新的Qwen2.5 LLM进行增强和多模态问答数据构建。

一系列作品推动了以架构设计、视觉输入处理、数据策展为特征的多模态大模型的发展。LVLMs进步的主要动力之一是架构的持续创新。相关研究发表在(阿莱拉克et al，2022；Li et al，2022a；2023b；Liu et al .，2023b；a；Wang et al .，2024i；Zhang et al，2024b；Wang et al ，2023 )逐渐形成了目前的范式，它通常由视觉编码器、跨模态投影层和LLM组成。细粒度感知模型已经成为另一个重要领域。像( Xiao et al . , 2023 ; Liu et al . , 2023c ; Ren et al , 2024 ; Zhang et al , 2024a ; d ; Peng et al . , 2023 ; Deitke et al , 2024)这样的模型在详细的视觉理解方面推动了什么是可能的边界。Omni ( Li et al , 2024g ; 2025b ;叶笃正等, 2024)和MoE (里克尔梅et al , 2021 ; Lee et al , 2024 ; Li et al , 2024h ; c ; Wu et al , 2024b)的架构对未来LVLMs的发展也具有启发意义。在视觉编码器( Chen et al , 2023 ; Liu et al . , 2024b ; Liang et al . , 2025)和分辨率缩放方面的增强( Li et al，2023c；叶笃正等 2023年；Li et al，2023a )在提高实际视觉理解质量方面起到了举足轻重的作用。对场景更多样、质量更高的数据进行排序是训练高级LVLMs的必要步骤。(郭庆旺等, 2024 ; Chen et al , 2024d ; Liu et al , 2024a ; Chen et al , 2024a ;佟家栋等, 2024 ; Li et al , 2024a)中提出的努力是对这一努力的极有价值的贡献。

然而，尽管视觉语言模型取得了令人瞩目的进展，但目前仍面临着计算复杂、上下文理解有限、细粒度视觉感知差、不同序列长度下性能不一致等发展瓶颈。

在本报告中，我们将介绍最新的工作Qwen2. 5-VL，延续了Qwen系列的开源理念，在多个基准上实现甚至超越了顶级的闭源模型。在技术上，我们的贡献有四点：
(1) 我们在视觉编码器中实现了窗口注意力，以优化推理效率； (2) 引入动态FPS采样，将动态分辨率扩展到时间维度，实现不同采样率下的视频综合理解； (3) 通过与绝对时间对齐，我们在时间域上提升了MRoPE，从而促进了更复杂的时间序列学习； (4) 我们在为预训练和有监督微调提供高质量的数据方面做出了巨大的努力，将预训练语料从1.2万亿元增长到4.1万亿令牌。
Qwen2.5 - VL 的闪烁特征如下：

强大的文档解析能力：Qwen2.5 - VL将文本识别升级为全文档解析，擅长处理多场景、多语言、多种内置(手写、表格、图表、化学式、音乐单)文档。
精确的跨格式对象定位能力：Qwen2.5 - VL解锁提高了物体检测、指向和计数的准确性，为高级空间推理提供了绝对坐标和JSON格式。
超长视频理解和细粒度视频定位：我们的模型将本地动态分辨率扩展到时间维度，增强了理解视频持续时间的能力，同时在秒级提取事件片段。
增强的计算机和移动设备的Agent功能：利用先进的定位、推理和决策能力，加强了模型在智能手机和计算机上的高级Agent功能。

图1：Qwen2 . 5 - VL框架集成了一个视觉编码器和一个语言模型解码器来处理多模态输入，包括图像和视频。视觉编码器的设计目的是处理其固有分辨率的输入，并支持动态FPS采样。不同大小的图像和不同FPS速率的视频帧被动态地映射为不同长度的令牌序列。值得注意的是，MRoPE在时间维度上将时间ID与绝对时间对齐，使模型能够更好地理解时间动态，例如事件的节奏和精确的时刻定位。处理后的视觉数据随后被输入到Qwen2.5LM解码器中。我们重新设计了视觉转换器( Vision Transformer，ViT )架构，集成了具有SwiGLU激活的FFN、用于归一化的RMSNorm和基于窗口的注意力机制等高级组件，以提高性能和效率。

2. 方法

在这一部分中，我们首先概述了Qwen2.5 - VL的架构更新系列模型，并提供了数据和训练细节的概述。

2.1 模型架构

Qwen2.5 - VL的整体模型架构由三个部分组成：

大语言模型：Qwen2.5 - VL系列采用大型语言模型作为其基础组成部分。该模型由Qwen2.5 LLM预训练的权重初始化。为了更好地满足多模态理解的需求，我们将1D RoPE (旋转位置嵌入)修改为我们的多模态旋转位置嵌入对齐绝对时间。

视觉编码器：Qwen2.5 - VL视觉编码器采用了重新设计的视觉转换器( ViT )架构。在结构上，我们结合了2D - RoPE和窗口注意力，以支持本地输入分辨率，同时加速整个视觉编码器的计算。在训练和推理过程中，输入图像的高度和宽度被调整为28的倍数，然后输入到ViT中。视觉编码器对图像进行处理，将图像分割成步幅为14的图像块，生成一组图像特征。我们在第2.1.1节中对视觉编码器进行了更详细的介绍。

基于MLP的视觉-语言融合：为了解决长序列图像特征带来的效率挑战，我们采用一种简单而有效的方法对特征序列进行压缩，然后将其输入到大语言模型( LLM )中。具体来说，与直接使用视觉变换( Vision Transformer，ViT )提取的原始斑块特征不同，我们首先对4个斑块特征的空间邻近集合进行分组。然后将这些分组特征串联起来，并通过一个两层的多层感知器( MLP )将它们投影到一个与LLM中使用的文本嵌入对齐的维度中。该方法不仅降低了计算成本，而且提供了一种灵活的方式来动态压缩不同长度的图像特征序列。表1中，Qwen2.5 - VL的架构和配置都有详细说明。

在这里插入图片描述

2.1.1 快速高效的视觉编码器

视觉编码器在多模态大型语言模型( Multimodal Large Language Models，MLLMs )中起着至关重要的作用。为了解决由于原生分辨率输入导致的训练和推理过程中计算负载不平衡所带来的挑战，我们重新设计了视觉转换器( Vision Transformer，ViT )架构。一个关键问题来自于与处理不同大小的图像相关的二次计算复杂性。为了减轻这种情况，我们在大多数层中引入了窗口注意力，这确保了计算成本与补丁的数量呈线性比例，而不是二次方比例。 在我们的架构中，只有四层使用完全自注意力，而其余层使用窗口注意力，最大窗口大小为112 × 112 (对应于8 × 8的面片)。对小于112 × 112的区域进行无填充处理，保留其原始分辨率。该设计允许模型在输入分辨率下进行本地化操作，避免了不必要的缩放或扭曲。

对于位置编码，我们采用2D旋转位置嵌入( Rotary Positional Embedding，RoPE )来有效地捕获2D空间中的空间关系。此外，为了更好地处理视频输入，我们扩展了我们的方法到3D块划分。具体来说，我们使用14 × 14的图像块作为基本单元，与传统的针对静态图像的视觉里程计一致。对于视频数据，将连续的两帧分组在一起，显著减少了输入到语言模型中的令牌数量。 该设计不仅保持了与现有架构的兼容性，而且在处理时序视频数据时提高了效率。

为了精简整体网络结构，我们将ViT架构与大型语言模型( Large Language Models，LLMs )的设计原则更紧密地结合起来。具体来说，我们采用RMSNorm ( Zhang & Sennrich , 2019)进行归一化，SwiGLU (Dauphin 等, 2017) 作为激活函数。这些选择既提高了计算效率，又增强了模型的视觉和语言成分之间的兼容性。

在训练方面，我们对重新设计的ViT进行了从头训练。训练过程包括CLIP预训练、视觉-语言对齐和端到端微调几个阶段。为了保证在不同输入分辨率下的鲁棒性，我们在训练过程中采用了在原始分辨率下的动态采样。图像根据其原始纵横比进行随机采样，使得模型能够有效地泛化到不同分辨率的输入。该方法不仅提高了模型的自适应性，而且保证了在不同大小的视觉数据上进行稳定高效的训练。

2.1.2 本地动态分辨率和帧率

Qwen2 . 5 - VL引入了空间和时间两个维度的进步，以有效地处理不同的多模态输入。

在空间域上，Qwen2 . 5 - VL动态地将不同大小的图像转换为相应长度的令牌序列。与传统的归一化坐标的方法不同，我们的模型直接使用输入图像的实际尺寸来表示边界框、点和其他空间特征。这使得模型可以从本质上学习尺度信息，提高其处理不同分辨率图像的能力。

对于视频输入，Qwen2.5 - VL融合了动态帧率( FPS )训练和绝对时间编码。通过适应可变的帧率，该模型可以更好地捕获视频内容的时间动态。与其他结合文本时间戳或使用额外的头来启用时间接地的方法不同，我们引入了一种新颖而有效的策略，将MRoPE ID与时间戳直接对齐。这种方法允许模型通过时间维度ID之间的间隔来理解时间的快慢，而不需要任何额外的计算开销。

2.1.3 多模态旋转位置嵌入与绝对时间对齐

位置嵌入对于在视觉和语言模态中对顺序数据进行建模至关重要。基于Qwen2-VL中引入的多模态旋转位置嵌入（MRoPE），我们扩展了其功能，以更好地处理视频中的时态信息。

Qwen2-VL 中的 MRoPE 将位置嵌入分解为三个不同的组件：时间、高度和宽度，以有效地对多模态输入进行建模。 对于文本输入，所有三个组件都使用相同的位置 ID，使 MRoPE 在功能上等同于传统的 1D RoPE（Su 等人，2024 年）。对于图像，时间 ID 在视觉标记中保持不变，而唯一 ID 则根据每个标记在图像中的空间位置分配给高度和宽度组件。在处理被视为帧序列的视频时，每个帧的时间 ID 都会递增，而高度和宽度分量遵循与静态图像相同的分配模式。

然而，在Qwen2-VL中，MRoPE中的时间位置ID与输入帧数挂钩，没有考虑视频中内容变化的速度或事件的绝对时间。为了解决这一限制，Qwen2.5-VL引入了一个关键的改进：将MRoPE的时间分量与绝对时间对齐。如图 1 所示，通过利用时间 ID 之间的间隔，该模型能够学习不同 FPS 采样率的视频之间的一致时间对齐。

2.2 预训练

在本节中，我们首先描述预训练数据集的构建，然后概述整个训练管道和配置。

2.2.1 预训练数据

与 Qwen2-VL 相比，我们显着扩展了预训练数据量，从 1.2 万亿个 token 增加到大约 4 万亿个 token。我们的预训练数据集是通过多种方法组合构建的，包括清理原始 Web 数据、合成数据等。该数据集包含各种多模态数据，例如图像标题、交错图像文本数据、光学字符识别（OCR）数据、视觉知识（例如名人、地标、动植物识别）、多模态学术问题、定位数据、文档解析数据、视频描述、视频定位和基于代理的交互数据。在整个训练过程中，我们仔细调整了这些数据类型在不同阶段的构成和比例，以优化学习成果。

交错的图像-文本数据

交错的图像-文本数据对于多模态学习至关重要，具有三个主要优势：（1）通过同时视觉和文本提示实现上下文学习（Alayrac 等人，2022 年），（2）在图像缺失时保持强大的纯文本功能（Lin 等人，2024 年），以及（3）包含广泛的一般信息。然而，许多可用的交错数据缺乏有意义的文本-图像关联，并且通常很嘈杂，限制了其对复杂推理和创造性生成的有用性。

为了应对这些挑战，我们开发了一种用于评分和清理数据的管道，确保仅使用高质量、相关的交错数据。我们的流程包括两个步骤：标准数据清理（Li 等人，2024e），然后是使用内部评估模型的四阶段评分系统。评分标准包括：（1）纯文本质量，（2）图像-文本相关性，（3）图像-文本互补性，以及（4）信息密度平衡。这种细致的方法提高了模型执行复杂推理和生成连贯多模态内容的能力。

以下是这些图像文本评分标准的说明：

图像-文本相关性：分数越高表明图像和文本之间的联系越强，图像对文本进行了有意义的补充、解释或扩展，而不仅仅是装饰文本。

信息互补性：分数越高，反映图像和文本之间的互补信息越多。每个都应该提供独特的细节，共同创建一个完整的叙述。

信息密度的平衡：分数越高意味着图像和文本之间的信息分布更加均衡，避免了过多的文本或图像信息，并确保两者之间的适当平衡。

使用绝对位置坐标Grounding数据

我们采用原生分辨率训练，旨在实现对世界的更准确感知。相比之下，相对坐标无法有效地表示图像中物体的原始大小和位置。为了解决这一限制，Qwen2.5-VL在训练过程中使用基于输入图像实际尺寸的坐标值来表示边界框和点。这种方法确保模型能够更好地捕捉物体的真实世界规模和空间关系，从而提高物体检测和定位等任务的性能。

为了提高接地能力的普遍性，我们开发了一个全面的数据集，其中包含边界框和带有引用表达式的点，同时利用公开可用的数据集和专有数据。我们的方法涉及将数据合成为各种格式，包括 XML、JSON 和自定义格式，采用复制粘贴增强等技术（Ghiasi 等人，2021 年）以及与现成模型（如 Grounding DINO（Liu 等人，2023c）和 SAM（Kirillov 等人，2023 年）进行合成。这种方法有助于对接地能力进行更稳健的评估和提高。

为了增强模型在开放词汇检测方面的性能，我们扩展了训练数据集，包括 10,000 多个对象类别。此外，为了提高模型在极端目标检测场景下的有效性，我们在查询中合成了不存在的对象类别，并构建了每个对象包含多个实例的图像数据。

为了确保卓越的基于点的物体接地能力，我们构建了一个全面的指向数据集，包括公开数据和合成数据。具体来说，数据源包括来自 PixMo 的公共指向和计数数据（Deitke 等人，2024 年）、可公开访问的物体接地数据（来自物体检测和实例分割任务）以及由自动化管道合成的数据，用于生成针对某些图像细节的精确指向数据。

文档全解析数据

为了训练Qwen2.5-VL，我们合成了大量的文档数据语料库。解析文档内容的传统方法通常依赖于单独的模型来处理布局分析、文本提取、图表解释和插图处理。相比之下，Qwen2.5-VL 旨在为通用模型提供解析、理解和转换文档格式的全面功能。具体来说，我们在文档中融入了各种元素，例如表格、图表、方程式、自然或合成图像、乐谱和化学式。这些元素统一采用 HTML 格式，将布局框信息和插图描述集成到 HTML 标签结构中。我们还根据典型的阅读顺序丰富了文档布局，并在基于 HTML 的基本实况中包含了与每个模块相对应的坐标，例如段落和图表。这种创新方法允许以标准化和统一的方式表示任何文档的完整信息，包括其布局、文本、图表和插图。因此，Qwen2.5-VL实现了多模态文档元素的无缝集成，从而促进了更高效、更准确的文档理解和转换。

下面是QwenVL HTML格式：
在这里插入图片描述
这种格式保证了所有文档元素都以结构化和可访问的方式表示，从而实现了Qwen2.5 - VL的高效处理和理解。

OCR数据

为了提高OCR的性能，收集和整理了不同来源的OCR数据，包括合成数据、开源数据和内部收集的数据。合成数据通过可视化文本生成引擎生成，在野外生成高质量的文本图像。为了支持更广泛的语言和增强多语言能力，我们纳入了一个大规模的多语言OCR数据集。该数据集包括对法语、德语、意大利语、西班牙语、葡萄牙语、阿拉伯语、俄语、日语、韩语和越南语等多种语言的支持。数据集经过精心策划，以确保多样性和质量，同时使用高质量的合成图像和真实的自然场景图像。这种组合保证了模型在不同语言环境下的鲁棒性，提高了模型对不同文本外观和环境条件的适应性。对于图表类型的数据，我们使用可视化库包括matplotlib，西伯恩和plotly合成了100万个样本，包括条形图，关系图和热图等图表类别。对于表格数据，我们通过离线端到端的表格识别模型处理了600万个真实世界的样本，随后过滤掉了低置信度的表格、重叠的表格和单元格密度不足的表格。

视频数据

为了确保在理解每秒帧数( FPS )变化的视频数据时具有更强的鲁棒性，我们在训练期间动态采样FPS，以实现训练数据集中FPS更均匀的分布表示。此外，对于超过半小时长度的视频，我们通过有针对性的合成管道，通过合成多帧字幕，专门构建了一组长视频字幕。对于视频接地数据，我们制定了秒级格式和时分秒帧( hour-minute-second-frame，hmsf )格式的时间戳，确保模型能够准确理解和输出各种格式的时间。

Agent数据

我们增强感知和决策能力，构建Qwen2.5-VL的智能体能力。对于感知，我们收集移动端、Web端和桌面平台的截图。合成数据引擎用于生成屏幕截图标题和 UI 元素基础注释。标题任务帮助 Qwen2.5-VL 理解图形界面，而接地任务则帮助它对齐元素的外观和功能。对于决策，我们首先将移动端、Web 端和桌面平台的作统一为具有共享作空间的函数调用格式。从开源数据中收集并由代理框架合成的一组带注释的多步轨迹（Wang et al.， 2025;2024b;c）在虚拟环境中被重新格式化为函数格式。我们通过人类和模型注释器进一步为每个步骤生成推理过程（Xu et al.， 2024）。具体来说，给定一个真实作，我们在屏幕截图上突出显示它。然后，我们将全局查询以及此作前后的屏幕截图提供给注释者，并要求他们编写推理内容来解释此作背后的意图。基于模型的过滤器用于筛选出低质量的推理内容。这样的推理内容可以防止 Qwen2.5-VL 对地面实况运算过拟合，使其在现实场景中更加鲁棒。

在这里插入图片描述

2.2.2 训练食谱

我们使用 DataComp（Gadre 等人，2023 年）和一些内部数据集从头开始训练视觉转换器（ViT）作为视觉编码器的初始化，同时利用预训练的 Qwen2.5 大型语言模型（LLM）（Yang 等人，2024a）作为 LLM 组件的初始化。如表 2 所示，预训练过程分为三个不同的阶段，每个阶段采用不同的数据配置和训练策略来逐步增强模型的能力。

在第一阶段，仅训练视觉转换器（ViT）以提高视觉与语言模型的一致性，为多模态理解奠定坚实的基础。此阶段的主要数据源包括图像标题、视觉知识和 OCR 数据。这些数据集经过精心挑选，旨在提高 ViT 提取有意义的视觉表示的能力，这些视觉表示可以与文本信息有效集成。

在第二阶段，所有模型参数都解冻，并对模型进行多样化的多模态图像数据集的训练，以增强其处理复杂视觉信息的能力。此阶段引入了更复杂和推理密集型的数据集，例如交错数据、多任务学习数据集、视觉问答（VQA）、多模态数学、基于代理的任务、视频理解和纯文本数据集。这些数据集增强了模型在视觉和语言模式之间建立更深层次联系的能力，使其能够处理日益复杂的任务。

在第三阶段，为了进一步增强模型在较长序列上的推理能力，在增加序列长度的同时，结合了视频和基于Agent的数据。这使得模型能够以更高的精度处理更高级和复杂的多模态任务。通过扩展序列长度，模型获得了处理扩展上下文的能力，这对于需要远程依赖和复杂推理的任务特别有利。

为了解决不同图像大小和文本长度带来的挑战，这些挑战可能导致训练过程中的计算负载不平衡，我们采用了一种优化训练效率的策略。主要计算成本来自 LLM 和视觉编码器。鉴于视觉编码器的参数相对较少，并且我们引入了窗口注意力以进一步降低其计算需求，我们专注于平衡不同 GPU 之间的 LLM 计算负载。具体来说，我们根据数据样本对应的输入序列长度动态打包给 LLM，确保计算负载一致。在第一阶段和第二阶段，数据被均匀打包为 8,192 个序列长度，而在第三阶段，序列长度增加到 32,768 个，以适应模型处理更长序列的增强能力。

2.3 后训练

Qwen2.5-VL的后训练对齐框架采用了双阶段优化范式，包括监督微调（SFT）和直接偏好优化（DPO）（Rafailov et al.， 2023）。这种分层对齐策略将参数高效的域适应与人类偏好蒸馏协同作用，通过不同的优化目标解决表征基础和行为细化问题。

监督微调（SFT）旨在通过有针对性的指令优化来弥合预训练表示与下游任务需求之间的差距。在此阶段，我们采用 ChatML 格式（Openai，2024）来构建指令跟踪数据，故意偏离预训练数据模式，同时保持与 Qwen2-VL 的架构一致性（Wang et al.， 2024e）。这种格式转换实现了三个关键的适应：1）用于多模态轮流的显式对话角色标记，2）在文本指令旁边结构化注入视觉嵌入，以及 3）通过格式感知打包保留跨模态位置关系。通过将模型暴露于此增强模式下的精选多模态指令-响应对，SFT 可以实现高效的知识转移，同时保持预训练特征的完整性。

2.3.1 指令数据

监督微调（SFT）阶段采用精心策划的数据集，旨在增强模型在不同模态上的指令遵循能力。该数据集包含大约 200 万个条目，均匀分布在纯文本数据（50%）和多模态数据（50%）之间，其中包括图像-文本和视频-文本组合。多模态数据的包含使模型能够有效地处理复杂的输入。值得注意的是，尽管纯文本和多模态条目表示相同，但由于嵌入了视觉和时间信息，多模态条目在训练过程中消耗了明显更多的标记和计算资源。该数据集主要由中英文数据组成，并补充多语言条目以支持更广泛的语言多样性。

该数据集的结构反映了不同程度的对话复杂性，包括单轮和多轮互动。这些交互通过从单图像输入到多图像序列的场景进一步情境化，从而模拟真实的对话动态。查询源主要来自开源存储库，还有来自精选的购买数据集和在线查询数据的额外贡献。这种组合确保了广泛的覆盖范围并增强了数据集的代表性。

为了应对广泛的应用场景，该数据集包括用于通用视觉问答（VQA）、图像字幕、数学问题解决、编码任务和安全相关查询的专用子集。此外，还构建了用于文档和光学字符识别（Doc 和 OCR）、接地、视频分析和代理交互的专用数据集，以提高特定领域的熟练程度。有关数据的详细信息可以在本文的相关部分找到。这种结构化且多样化的组成确保 SFT 阶段有效地将预训练的表示与下游多模态任务的细微需求保持一致，从而促进稳健且上下文感知的模型性能。

2.3.2 数据过滤管道

训练数据的质量是影响视觉语言模型性能的关键因素。开源和合成数据集通常表现出显着的可变性，通常包含嘈杂、冗余或低质量的样本。因此，严格的数据清理和过滤过程对于解决这些问题至关重要。低质量的数据可能导致预训练表示与下游任务需求之间的一致性不理想，从而降低模型有效处理复杂多模态任务的能力。因此，确保高质量的数据对于实现稳健可靠的模型性能至关重要。

为了应对这些挑战，我们实施了一个两阶段数据过滤管道，旨在系统地提高监督微调（SFT）数据集的质量。该管道包括以下阶段：

第一阶段：特定领域分类 在初始阶段，我们采用 Qwen2-VL-Instag（一种源自Qwen2-VL-72B的专用分类模型）对问答（QA）对进行分层分类。该模型将 QA 对组织成八个主要领域，例如 Coding 和Planning，这些领域进一步分为 30 个细粒度子类别。例如，主域 Coding 细分为子类别，包括Code_Debugging、Code_Generation、Code_Translation和Code_Understanding。这种分层结构有助于域感知和子域感知过滤策略，使管道能够根据每个类别的特定特征优化数据清理过程。因此，这提高了监督微调（SFT）数据集的质量和相关性。

第二阶段：领域定制过滤 第二阶段涉及领域定制过滤，它集成了基于规则和基于模型的方法，以全面提高数据质量。鉴于文档处理、光学字符识别（OCR）和视觉接地等领域的多样性，每个领域可能需要独特的过滤策略。下面，我们概述了应用于这些领域的一般过滤策略。

基于规则的过滤采用预定义的启发式方法来消除低质量或有问题的条目。具体来说，对于与文档处理、OCR 和视觉基础任务相关的数据集，识别并删除重复模式，以防止模型学习过程失真并确保最佳性能。此外，包含不完整、截断或格式不正确的响应（在合成数据集和多模态上下文中很常见）的条目将被排除在外。为了保持相关性并维护道德标准，不相关或可能导致有害输出的查询和答案也会被丢弃。这种结构化方法可确保数据集遵守道德准则并满足特定于任务的要求。

基于模型的过滤通过利用在 Qwen2.5-VL 系列上训练的奖励模型进一步细化数据集。这些模型评估多个维度的多模态 QA 对。对查询的复杂性和相关性进行评估，仅保留那些具有适当挑战性和上下文相关的示例。根据正确性、完整性、清晰度、与查询的相关性和有用性来评估答案。在基于视觉的任务中，特别注意验证视觉信息的准确解释和利用。这种多维评分确保只有高质量的数据才能进入 SFT 阶段。

2.3.3 用于增强推理的拒绝抽样

为了补充我们的结构化数据过滤管道，我们采用拒绝采样作为一种策略来细化数据集并增强视觉语言模型（VLM）的推理能力。这种方法对于需要复杂推理的任务尤其重要，例如数学问题解决、代码生成和特定领域的视觉问答（VQA）。为了进一步提高数据质量，我们应用额外的约束来过滤掉不需要的输出。具体来说，我们排除了表现出代码转换、长度过长或重复模式的响应。这些标准确保了 CoT 推理过程的清晰度和连贯性，这对于下游应用至关重要。

将 CoT 推理应用于视觉语言模型的一个关键挑战是它们对文本和视觉模态的依赖。中间推理步骤可能无法充分整合视觉信息，要么忽略相关的视觉线索，要么误解它们。为了解决这个问题，我们开发了基于规则和模型驱动的过滤策略来验证中间推理步骤的准确性。这些机制确保 CoT 流程中的每个步骤都有效地整合了视觉和文本模式。尽管做出了这些努力，实现最佳模态一致性仍然是一项持续的挑战，需要进一步进步。

通过拒绝采样生成的数据显着提高了模型的推理能力。通过迭代细化数据集并删除低质量或错误样本，我们使模型能够从强调准确和连贯推理的高保真示例中学习。这种方法不仅增强了模型处理复杂任务的能力，还为视觉语言建模的未来改进奠定了基础。

2.3.4 训练食谱

Qwen2.5-VL的后训练过程由两个阶段组成：监督微调（SFT）和直接偏好优化（DPO），这两个阶段都冻结了视觉转换器（ViT）参数。在 SFT 阶段，模型对各种多模态数据进行微调，包括图像-文本对、视频和纯文本，这些数据源自通用 VQA、拒绝采样以及文档和 OCR、接地、视频和代理相关任务等专业数据集。DPO 阶段专门关注图像文本和纯文本数据，利用偏好数据使模型与人类偏好保持一致，每个样本仅处理一次以确保高效优化。这种简化的过程增强了模型的跨模态推理和特定于任务的性能，同时保持与用户意图的一致性。

3 实验

在本节中，我们首先介绍整体模型，并将其与当前最先进的（SoTA）模型进行比较。然后，我们评估模型在各种子功能中的性能。

3.1 与 SOTA 模型的比较

在这里插入图片描述

实验部分评估了 Qwen2.5-VL 在各种数据集中的性能，并将其与 Claude-3.5-Sonnet-0620（Anthropic， 2024a）、GPT-4o-0513 （Ope-nAI， 2024）、InternVL2.5 （Chen et al.， 2024d）等最先进的模型以及不同大小的 Qwen2-VL （Wang et al.， 2024e）进行了比较。在大学水平的问题中，Qwen2.5-VL-72B在MMMU上获得了70.2分（Yue et al.， 2023）。对于 MMMU-Pro（Yue et al.， 2024），Qwen2.5-VL-72B 得分为 51.1，超越了之前的开源最先进的模型，并实现了与 GPT-4o 相当的性能。

在数学相关任务中，Qwen2.5-VL-72B表现出强大的能力。在 MathVista（Lu 等人，2024 年）上，它获得了 74.8 分，超过了之前开源最先进的分数 72.3 分。对于 MATH-Vision（Wang 等人，2024d），Qwen2.5-VL-72B 得分为 38.1，而 MathVerse（Zhang 等人，2024c）得分为 57.6，与其他领先模型相比，两者都显示出具有竞争力的结果。

对于一般视觉问答，Qwen2.5-VL-72B在多个基准测试中表现出色。在 MMbench-EN （Liu et al.， 2023d）上，它获得了 88.6 分，略高于之前的最佳得分 88.3。该模型在 MuirBench （Wang et al.， 2024a）中也表现出色，得分为 70.7，BLINK （Fu et al.， 2024c） 64.4.In MTVQA 的多语言能力评估（Tang et al.， 2024），Qwen2.5-VL-72B 得分为 31.7，展示了其强大的多语言文本识别能力。在MMVet（Yu et al.， 2024）和MM-MT-Bench（Agrawal et al.， 2024）等主观评价中，Qwen2.5-VL-72B分别获得76.2分和7.6分，表现出出色的自然对话体验和用户满意度。

3.2 纯文本任务的性能

为了批判性地评估指令调整模型在纯文本任务上的性能，如表 4 所示，我们选择了几个具有代表性的基准来评估模型在各个领域的能力，包括一般任务（Wang et al.， 2024j;Gema 等人，2024 年;White 等人，2024 年）、数学和科学任务（Rein 等人，2023 年;Hendrycks 等人，2021 年;Cobbe 等人，2021 年）、代码任务（Chen 等人，2021 年;Cassano 等人，2023 年）和对齐任务（周等人，2023 年）。我们将 Qwen2.5-VL 与几个类似规模的大型语言模型（LLM）进行了比较。结果表明，Qwen2.5-VL不仅在多模态任务上实现了最先进的（SoTA）性能，而且在纯文本任务上也表现出领先的性能，展示了其在不同评估标准中的通用性和鲁棒性。

在这里插入图片描述

3.3 定量结果

3.3.1 一般视觉问答

为了全面评估模型在一般视觉问答（VQA）和对话方面的能力，我们在各种数据集中进行了广泛的实验。如表 3 所示，Qwen2.5-VL 在各种 VQA 任务、主观评估、多语言场景和多图像问题中展示了最先进的性能。具体来说，它在 MMBench 系列（Liu 等人，2023d）、MMStar（Chen 等人，2024c）、MME（Fu 等人，2023）、MuirBench（Wang 等人，2024a）、BLINK（Fu 等人，2024c）、CRPE（Wang 等人，2024h）、HallBench（Guan 等人，2023 年）、MTVQA（Tang 等人，2024 年）、MME-RealWorld（Zhang 等人，2024f）、MMVet（Yu 等人， 2024 年）和 MM-MT-Bench（Agrawal 等人，2024 年）。

在视觉细节理解和推理领域，Qwen2.5-VL-72B在MMBench-EN-V1.1数据集上实现了88.4%的准确率，超过了InternVL2.5（78B）和Claude-3.5Sonnet-0620等之前最先进的模型。同样，在MMStar数据集上，Qwen2.5-VL获得了70.8%的分数，优于该基准测试中的其他领先模型。这些结果强调了该模型在不同语言环境中的稳健性和适应性。

此外，在高分辨率真实场景中，特别是在 MME-RealWorld 基准测试上，Qwen2.5-VL 以 63.2 分展示了最先进的性能，展示了其对现实环境的广泛适应性。此外，在MuirBench数据集评估的多图像理解任务中，Qwen2.5-VL获得了70.7的领先分，进一步凸显了其卓越的泛化能力。总的来说，这些结果说明了Qwen2.5-VL在解决各种场景下的通用视觉问答（VQA）任务方面的强大通用性和有效性。

值得注意的是，即使是Qwen2.5-VL的较小规模版本，特别是Qwen2.5-VL-7B和Qwen2.5-VL-3B，也表现出极具竞争力的性能。例如，在 MMStar 数据集上，Qwen2.5-VL-7B 得分为 63.9%，而 Qwen2.5-VL-3B 得分为 55.9%。这表明Qwen2.5-VL的架构不仅功能强大，而且具有可扩展性，即使参数较少也能保持强大的性能。

3.3.2 文档理解和 OCR

我们根据各种 OCR、图表和文档理解基准评估了我们的模型。表 5 展示了 Qwen2.5-VLmodels 与顶级模型在以下 OCR 相关基准测试上的性能比较：AI2D （Kembhavi et al.， 2016）、TextVQA （Singh et al.， 2019）、DocVQA （Mathew et al.， 2021b）、InfoVQA （Mathew et al.， 2021a）、ChartQA （Masry et al.， 2022）、CharXiv （Wang et al.， 2024k）、SEED-Bench-2-Plus （Li et al.， 2024b）、OCRBench （Liu et al.， 2023e）、OCRBench_v2 （Fu et al.， 2024b）、CC-OCR（Yang et al.， 2024b）、OmniDocBench（Ouyang et al.， 2024）、VCR（Zhang et al.， 2024e）。

对于多场景、多语言、各种内置（手写、表格、图表、化学式、数学表达式）文档元素解析的OCR相关解析基准，如CC-OCR和OmniDocBench，Qwen2.5-VL-72Bmodel凭借精选的训练数据和LLM模型的卓越能力，树立了新的前沿。

对于场景文本、图表、图表和文档的 OCR 相关理解基准，Qwen2.5-VLmodels 以良好的理解能力取得了令人印象深刻的性能。值得注意的是，在OCRBench、InfoVQA等复合OCR相关理解基准上，专注于信息图表的InfoVQA以及涵盖图表、地图和Web等文本丰富的场景的SEED-Bench-2-Plus上，Qwen2.5-VL-72B取得了显著的成绩，明显优于InternVL2.5-78B等强势竞争对手。

此外，对于 OCR 相关的综合基准测试，OCRBench_v2包括广泛的 OCR 相关解析和理解任务，Qwen2.5-VLmodels 也取得了顶级性能，在英文和中文赛道上分别大幅超过最佳模型 Gemini 1.5-Pro 9.6% 和 20.6%。

在这里插入图片描述

3.3.3 空间理解

理解空间关系对于开发能够像人类一样解释世界并与世界互动的人工智能模型至关重要。在大型视觉语言模型中，视觉基础允许根据自然语言查询或描述精确定位和识别图像中的特定对象、区域或元素。这种能力超越了传统的对象检测，在视觉内容和语言上下文之间建立了语义关系，促进了更细致和上下文感知的视觉推理。我们在引用表达理解基准上评估了Qwen2.5-VL的接地能力（Kazemzadeh等人，2014年;毛等人，2016 年）、野外对象检测（Li 等人，2022b）、自策划点接地基准和 CountBench（Paiss 等人，2023 年）。

我们将Qwen2.5-VL的视觉接地能力与其他领先的LVLM，包括Gemini、Grounding-DINO（Liu等人，2023c）、Molmo（Deitke等人，2024）和InternVL2.5进行了比较。

Qwen2.5-VL 在从方框grounding、点grounding到计数的不同基准测试中都取得了领先的性能。通过为 Qwen2.5-VL 配备方框和点grounding功能，它能够理解、定位和推理图像某些部分的细节。对于open-vocabulary目标检测，Qwen2.5-VL在ODinW-13上实现了43.1 mAP的良好性能，超越了大多数LVLM，并迅速缩小了通用模型和专业模型之间的差距。

此外，Qwen2.5-VL解锁了基于点的grounding能力，使其能够精确定位某个物体的细节，这在过去很难用边界框来表示。Qwen2.5-VL 的计数能力也取得了长足的进步，使用 Qwen2.5-VL-72B 使用“检测然后计数”式提示，在 CountBench 上实现了 93.6 的领先准确率。

3.3.4 视频理解和接地

在这里插入图片描述

我们利用基准测试了各种视频理解和基础任务中的模型，其中包括从几秒钟到几小时不等的视频。表 8 展示了 Qwen2.5-VLmodels 与顶级专有模型在以下视频基准测试上的性能比较：Video-MME （Fu et al.， 2024a）、Video-MMMU （胡 et al.， 2025）、MMVU （Zhao （Li et al.， 2024d）、MMBench-Video （Fang et al.， 2024）、LongVideoBench （Wu et al.， 2024a）、EgoSchema （Mangalam et al.， 2023）、PerceptionTest （Patraucean et al.， 2024）、MLVU （周 et al.， 2024）、LVBench （Wang et al.， 2024g）、TempCompass （Liu et al.， 2024c）和 Charades-STA （Gao et al.， 2017）。值得注意的是，在通过问答任务评估长视频理解能力的LVBench和MLVU上，Qwen2.5-VL-72B取得了显著的成绩，明显优于GPT-4o等强势竞争对手。

通过利用所提出的同步MRoPE，Qwen2.5-VL增强了其在时间敏感视频理解方面的能力，具有改进的时间戳引用、时间接地、密集字幕和附加功能。在 Charades-STA 数据集上，Qwen2.5-VL-72B 获得了令人印象深刻的 50.9 分的 mIoU 分数，从而超越了 GPT-4o 的性能。对于所有评估的基准测试，我们将每个视频分析的最大帧数限制为 768，视频令牌总数不超过 24,576。

在这里插入图片描述

3.3.5 Agent

多模态模型中的代理功能对于使这些模型能够有效地与现实世界的设备交互至关重要。我们从各个方面评估Qwen2.5-VL的代理能力。UI 元素接地由 ScreenSpot （Cheng et al.， 2024）和 ScreenSpot Pro （Li et al.， 2025a）评估。离线评估在 Android Control 上进行（Li et al.， 2024f），而在线评估在 AndroidWorld （Rawles et al.， 2024）、MobileMiniWob++ （Rawles et al.， 2024）和 OSWorld （Xie et al.， 2025）等平台上进行。我们将 Qwen2.5-VL-72B 的性能与其他著名模型进行了比较，例如 GPT-4o（OpenAI，2024 年）、Gemini 2.0（Deepmind，2024 年）、Claude（Anthropic，2024 年b）、Aguvis-72B（Xu 等人，2024 年）和 Qwen2-VL-72B（Wang 等人，2024 年e）。结果如表 9 所示。

在这里插入图片描述

Qwen2.5-VL-72B 的性能展示了在 GUI 接地基准测试中的卓越进步。它在 ScreenSpot 上实现了 87.1% 的准确率，与 Gemini 2.0 （84.0%）和 Claude （83.0%）展开了激烈竞争，同时以 43.6% 的准确率在 ScreenSpot Pro 上树立了新标准，远远超过了 Aguvis-72B （23.6%）及其基础 Qwen2-VL-72B （1.6%）。利用这些卓越的接地能力，Qwen2.5-VL-72B 在所有离线评估基准中都明显优于基线，但差距很大。在在线评估中，由于接地能力有限，一些基线难以完成任务。因此，我们将标记集（SoM）应用于这些模型的输入。结果表明，Qwen2.5-VL-72B在没有辅助标记的情况下，在在线评估中可以优于AndroidWorld和MobileMiniWob++上的基线，在OSWorld上达到相当的性能。这一观察结果表明，Qwen2.5-VL-72B 能够在真实和动态环境中充当智能体。

4 结论

我们推出了Qwen2.5-VL，这是一个最先进的视觉语言模型系列，在多模态理解和交互方面取得了重大进展。Qwen2.5-VL在视觉识别、对象定位、文档解析、长视频理解等方面具有增强功能，在静态和动态任务中都表现出色。其原生动态分辨率处理和绝对时间编码能够稳健地处理不同的输入，而窗口注意力Window Attention在不牺牲分辨率保真度的情况下减少了计算开销 。Qwen2.5-VL适用于从边缘人工智能到高性能计算的广泛应用。旗舰 Qwen2.5-VL-72B 与 GPT-4o 和 Claude 3.5 Sonnet 等领先模型相媲美或超越，特别是在文档和图表理解方面，同时在纯文本任务上保持强大的性能。较小的 Qwen2.5-VL-7B 和 Qwen2.5-VL-3B 变体的性能优于类似尺寸的竞争对手，提供效率和多功能性。Qwen2.5-VL为视觉语言模型树立了新的标杆，展示了卓越的跨领域泛化和任务执行能力。其创新为更加智能和交互式的系统铺平了道路，连接了感知和现实世界的应用。