当前位置：首页 > news >正文

Qwen3-VL 全面解析：从 Qwen2-VL → Qwen2.5-VL → Qwen3-VL 的三代进化

news 2025/10/10 11:00:38

（结论先行）

Qwen3-VL 是目前 Qwen 家族最强的视觉-语言模型，支持 Dense 与 MoE 架构，上下文长度 原生 256K、可拓展到 1M，视频理解更强，GUI 级视觉 Agent 更稳，OCR 扩到 32 种语言；适合复杂多模态工作流与视频/长文档检索总结。GitHub
Qwen2.5-VL 在 2 代基础上大幅增强 文档解析（QwenVL HTML）、精确定位（BBox/Points + 稳定 JSON 输出）、长视频（>1h）事件定位、视觉 Agent 等能力；开源有 3B/7B/72B 等尺寸可选，并提供 AWQ 量化。Qwen+1
Qwen2-VL 的核心创新是 Naive Dynamic Resolution（NDR） 与 M-RoPE，统一处理 图像与视频，提供 2B/8B/72B 尺寸，奠定了后续系列的高分辨率与视频建模底座。arXiv

一、时间线与版本定位

Qwen2-VL（2024-09-18）：提出 NDR 与 M-RoPE，统一图像/视频范式，参数规模覆盖 2B/8B/72B。arXiv
Qwen2.5-VL（2025-01-26）：发布 3B/7B/72B（后续补充 32B），主打文档解析、定位与长视频事件捕获，支持结构化输出与视觉 Agent；同步提供开源权重与 AWQ 量化。Qwen+1
Qwen3-VL（2025-09/10 公布多款）：推出 MoE 与 Dense 系列，已放出 Qwen3-VL-235B-A22B 与 Qwen3-VL-30B-A3B（含 Thinking 版、FP8 版本）；README 明确 原生 256K→1M 上下文、视觉 Agent/视频/空间三维推理全面升级。GitHub

二、架构与训练：三代关键机制对照

Qwen2-VL（基座）

NDR（Naive Dynamic Resolution）：根据图像分辨率自适应生成不同数量视觉 token，解决固定分辨率瓶颈。
M-RoPE（Multimodal Rotary Position Embedding）：统一融合同一坐标系下文本/图像/视频的位置编码。
统一图像/视频处理范式：同一框架下进行视频与图像建模与推理。arXiv

Qwen2.5-VL（功能强化）

文档解析格式 QwenVL HTML，能够输出带 bbox 的 HTML 结构，适配票据、表单、论文、网页、手机截图等多场景。
精确定位与结构化 JSON：支持点/框/属性的稳定 JSON 输出（例如检测头部/手部关键点或机动车头盔状态）。
长视频理解：面向 >1 小时视频，新增“事件捕获”能力（按片段定位）。
视觉 Agent：直接进行电脑/手机的 GUI 操作（工具调用 + 推理）。Qwen

Qwen3-VL（系统跃迁）

Interleaved-MRoPE：在 时间/宽/高多维度做全频率分配的位置编码，提升长视频时序推理。
DeepStack：融合多层 ViT 视觉特征，强化细粒度对齐与识别。
Text–Timestamp Alignment：从 T-RoPE 走向“文本-时间戳”精准对齐，利于事件级视频定位。
长上下文 & 长视频：原生 256K，最高扩展到 1M，强调对“书本级”文档与“小时级”视频的完整回忆与秒级索引。
OCR 语言扩展到 32 种（从 2.5 的多语 OCR 进一步增强），低光/模糊/倾斜鲁棒性更强。
视觉 Agent 强化：更全的 GUI 元素理解、空间关系/遮挡/视角判断，支持 2D 定位到 3D/空间推理。
Dense & MoE 双线，覆盖边缘到云端；提供 Instruct 与 Thinking 版本以平衡推理质量与成本。GitHub

三、能力维度对比（选取工程常用点）

维度	Qwen2-VL	Qwen2.5-VL	Qwen3-VL
图像分辨率与 Token	NDR 动态分辨率→动态 token	延续并在定位/文档/多物体识别上强化	在 DeepStack 下进一步细粒度对齐
位置编码	M-RoPE	M-RoPE + 任务侧适配	Interleaved-MRoPE + 文本-时间戳对齐
视频	统一范式（图像/视频）	>1h 长视频 + 事件片段定位	更强长视频，秒级索引与时间对齐
文档解析	基础能力	QwenVL HTML 结构化解析	解析质量/鲁棒性继续增强
OCR	强	多语种 OCR（票据、表格等结构化提取）	32 语种，低光/模糊/倾斜更稳
定位/输出	基础	BBox/Points + 稳定 JSON	2D 定位更强，并向 3D/空间推理扩展
视觉 Agent	初步	可操作 PC/手机（工具/GUI）	GUI 交互更强（元素/功能理解、任务闭环）
上下文长度	轻度长上下文	进一步增强（文档/视频工作流）	原生 256K → 1M（书本/小时级视频）
尺寸/变体	2B/8B/72B	3B/7B/72B（后有 32B） + AWQ	Dense & MoE，如 235B-A22B、30B-A3B（含 FP8 版）
代表性来源	论文（2024-09）	官方长文/文档演示（2025-01）	官方 README/Blog（2025-09/10）

（表格要点来源：Qwen2-VL 论文摘要；Qwen2.5-VL 官方博文与说明；Qwen3-VL 官方 README 与新闻条目。）arXiv+2Qwen+2

四、具体功能亮点与示例

1）文档/表单/票据结构化

Qwen2.5-VL 提供 QwenVL HTML：把复杂版面转成带 bbox 的 HTML DOM，有利于二次解析与落库；同时支持 JSON 结构化（如发票字段抽取）。Qwen
Qwen3-VL 在此基础上进一步提升鲁棒性与召回，适合长文档（合同/报告/手册）“阅读-抽取-问答”。GitHub

2）目标定位与空间推理

Qwen2.5-VL 已支持 bbox/points 的稳定 JSON 输出，用于头盔识别、关键点/部件定位等；
Qwen3-VL 强调 空间/遮挡/视角理解，并将 2D grounding → 3D/空间推理 扩展（利于车道-障碍-相对方位推断与 Embodied/Agent 任务）。Qwen+1

3）长视频与事件检索

Qwen2.5-VL：支持 >1 小时视频并“按事件定位片段”；
Qwen3-VL：在 Interleaved-MRoPE + 文本-时间戳 对齐下，强调 秒级索引 与长时依赖推理，可做“多摄像头/多小时”事故线索串联。Qwen+1

4）视觉 Agent（电脑/手机 GUI 自动化）

Qwen2.5-VL 已能直接“看屏幕-点按钮-填表单”；
Qwen3-VL 在 GUI 元素/功能理解、工具调度与任务闭环上进一步增强，适合做 视觉版 RPA/巡检自动化。Qwen+1

五、模型规模与开源形态

Qwen2-VL：2B/8B/72B 规模开源。arXiv
Qwen2.5-VL：3B/7B/72B（后续有 32B），并 发布了 AWQ 量化 方便落地。GitHub
Qwen3-VL：Dense/MoE 双线，已公布 235B-A22B、30B-A3B（含 Thinking 与 FP8 变体），代码与使用说明集中在官方仓库/说明页。GitHub+1

许可：Qwen3-VL 仓库标注 Apache-2.0 许可证。GitHub

六、工程落地：部署与性能要点

1）vLLM 快速部署（官方示例）

# vLLM >= 0.11.0
uv pip install -U vllm
pip install qwen-vl-utils==0.0.14 accelerate# （例）Serving Qwen3-VL 235B A22B 的 FP8 版本（需 H100+ / CUDA 12+）
vllm serve Qwen/Qwen3-VL-235B-A22B-Instruct-FP8 \--tensor-parallel-size 8 \--mm-encoder-tp-mode data \--enable-expert-parallel \--async-scheduling \--host 0.0.0.0 --port 22002

（命令来自官方 README，含 FP8/并行与示例脚本；更多 Docker/Web demo/SDK 见仓库。）GitHub

2）量化与硬件建议

3080/3090/A40/T4 等通用显卡：若显存紧张、以“误报复核/结构化抽取”为主，建议 Qwen2.5-VL-7B / 3B 的 AWQ 量化 先落地，延迟与吞吐兼顾；如需更强鲁棒性再尝试 Qwen3-VL-30B-A3B（可结合张量并行/流水线并行/多卡切图），但单卡 3080 显存较吃紧。GitHub
A100/H100：追求 长文档 + 长视频 + Agent 的强体验，优先 Qwen3-VL（可用 FP8 版本在 H100 上提速/省显存）。GitHub

七、快速上手代码片段

1）本地 vLLM 接口（图像 OCR/抽取）

from openai import OpenAI
client = OpenAI(api_key="EMPTY", base_url="http://127.0.0.1:22002/v1", timeout=3600)messages = [{"role": "user","content": [{"type": "image_url", "image_url": {"url": "https://.../receipt.png"}},{"type": "text", "text": "请抽取发票代码/号码/站点/金额，输出 JSON。"}
]}]resp = client.chat.completions.create(model="Qwen/Qwen3-VL-30B-A3B-Instruct",messages=messages,max_tokens=1024,
)
print(resp.choices[0].message.content)

（接口形式与示例取自官方 README，模型名可按你的部署替换。）GitHub

2）Qwen2.5-VL：定位/结构化 JSON（适合轻量复核）

官方示例展示了 “检测头盔/关键点/车辆”等并输出稳定 JSON；也有 票据/表格/快递单的结构化样例，可直接套你的字段模板。Qwen

八、如何选型：给到三种典型预算/目标的组合

性价比优先（8–16GB 显存）：Qwen2.5-VL-7B（AWQ） → 做误报复核、OCR/结构化、基本事件检索。
均衡（24–48GB / 多卡）：Qwen3-VL-30B-A3B（Instruct） → 更稳的长视频/空间推理与 Agent；必要时搭配小模型级联。
极致能力（H100 集群）：Qwen3-VL-235B-A22B（Thinking/FP8） → 超长上下文、强视频检索与复杂 GUI 自动化。GitHub

九、与前代的差异清单（要点复盘）

上下文/长视频：Qwen3-VL 原生 256K → 1M，并在 时间戳对齐 上显著加强；Qwen2.5-VL 支持 >1h 与事件定位；Qwen2-VL 奠定统一视频范式。GitHub+2Qwen+2
定位/输出：Qwen2.5-VL 起步提供 BBox/Points + 稳定 JSON；Qwen3-VL 强化到 2D→3D/空间。Qwen+1
文档解析：Qwen2.5-VL 有 QwenVL HTML；Qwen3-VL 在鲁棒性/范围上继续提高。Qwen+1
视觉 Agent：2.5 可操作电脑/手机；3-VL 更强的 GUI 元素与任务闭环。Qwen+1
OCR 多语：3-VL 标注支持 32 语种 与弱质/倾斜场景；2.5 已具备多语 OCR 与丰富票据/表单抽取案例。GitHub+1
开源与量化：2.5-VL 提供 3B/7B/72B + AWQ；3-VL 提供 30B/235B 等多款（含 FP8），Dense/MoE 并行。GitHub