Qwen3-VL 全面解析:从 Qwen2-VL → Qwen2.5-VL → Qwen3-VL 的三代进化
(结论先行)
-
Qwen3-VL 是目前 Qwen 家族最强的视觉-语言模型,支持 Dense 与 MoE 架构,上下文长度 原生 256K、可拓展到 1M,视频理解更强,GUI 级视觉 Agent 更稳,OCR 扩到 32 种语言;适合复杂多模态工作流与视频/长文档检索总结。GitHub
-
Qwen2.5-VL 在 2 代基础上大幅增强 文档解析(QwenVL HTML)、精确定位(BBox/Points + 稳定 JSON 输出)、长视频(>1h)事件定位、视觉 Agent 等能力;开源有 3B/7B/72B 等尺寸可选,并提供 AWQ 量化。Qwen+1
-
Qwen2-VL 的核心创新是 Naive Dynamic Resolution(NDR) 与 M-RoPE,统一处理 图像与视频,提供 2B/8B/72B 尺寸,奠定了后续系列的高分辨率与视频建模底座。arXiv
一、时间线与版本定位
-
Qwen2-VL(2024-09-18):提出 NDR 与 M-RoPE,统一图像/视频范式,参数规模覆盖 2B/8B/72B。arXiv
-
Qwen2.5-VL(2025-01-26):发布 3B/7B/72B(后续补充 32B),主打文档解析、定位与长视频事件捕获,支持结构化输出与视觉 Agent;同步提供开源权重与 AWQ 量化。Qwen+1
-
Qwen3-VL(2025-09/10 公布多款):推出 MoE 与 Dense 系列,已放出 Qwen3-VL-235B-A22B 与 Qwen3-VL-30B-A3B(含 Thinking 版、FP8 版本);README 明确 原生 256K→1M 上下文、视觉 Agent/视频/空间三维推理全面升级。GitHub
二、架构与训练:三代关键机制对照
Qwen2-VL(基座)
-
NDR(Naive Dynamic Resolution):根据图像分辨率自适应生成不同数量视觉 token,解决固定分辨率瓶颈。
-
M-RoPE(Multimodal Rotary Position Embedding):统一融合同一坐标系下文本/图像/视频的位置编码。
-
统一图像/视频处理范式:同一框架下进行视频与图像建模与推理。arXiv
Qwen2.5-VL(功能强化)
-
文档解析格式 QwenVL HTML,能够输出带 bbox 的 HTML 结构,适配票据、表单、论文、网页、手机截图等多场景。
-
精确定位与结构化 JSON:支持点/框/属性的稳定 JSON 输出(例如检测头部/手部关键点或机动车头盔状态)。
-
长视频理解:面向 >1 小时视频,新增“事件捕获”能力(按片段定位)。
-
视觉 Agent:直接进行电脑/手机的 GUI 操作(工具调用 + 推理)。Qwen
Qwen3-VL(系统跃迁)
-
Interleaved-MRoPE:在 时间/宽/高多维度做全频率分配的位置编码,提升长视频时序推理。
-
DeepStack:融合多层 ViT 视觉特征,强化细粒度对齐与识别。
-
Text–Timestamp Alignment:从 T-RoPE 走向“文本-时间戳”精准对齐,利于事件级视频定位。
-
长上下文 & 长视频:原生 256K,最高扩展到 1M,强调对“书本级”文档与“小时级”视频的完整回忆与秒级索引。
-
OCR 语言扩展到 32 种(从 2.5 的多语 OCR 进一步增强),低光/模糊/倾斜鲁棒性更强。
-
视觉 Agent 强化:更全的 GUI 元素理解、空间关系/遮挡/视角判断,支持 2D 定位到 3D/空间推理。
-
Dense & MoE 双线,覆盖边缘到云端;提供 Instruct 与 Thinking 版本以平衡推理质量与成本。GitHub
三、能力维度对比(选取工程常用点)
维度 | Qwen2-VL | Qwen2.5-VL | Qwen3-VL |
---|---|---|---|
图像分辨率与 Token | NDR 动态分辨率→动态 token | 延续并在定位/文档/多物体识别上强化 | 在 DeepStack 下进一步细粒度对齐 |
位置编码 | M-RoPE | M-RoPE + 任务侧适配 | Interleaved-MRoPE + 文本-时间戳对齐 |
视频 | 统一范式(图像/视频) | >1h 长视频 + 事件片段定位 | 更强长视频,秒级索引与时间对齐 |
文档解析 | 基础能力 | QwenVL HTML 结构化解析 | 解析质量/鲁棒性继续增强 |
OCR | 强 | 多语种 OCR(票据、表格等结构化提取) | 32 语种,低光/模糊/倾斜更稳 |
定位/输出 | 基础 | BBox/Points + 稳定 JSON | 2D 定位更强,并向 3D/空间推理扩展 |
视觉 Agent | 初步 | 可操作 PC/手机(工具/GUI) | GUI 交互更强(元素/功能理解、任务闭环) |
上下文长度 | 轻度长上下文 | 进一步增强(文档/视频工作流) | 原生 256K → 1M(书本/小时级视频) |
尺寸/变体 | 2B/8B/72B | 3B/7B/72B(后有 32B) + AWQ | Dense & MoE,如 235B-A22B、30B-A3B(含 FP8 版) |
代表性来源 | 论文(2024-09) | 官方长文/文档演示(2025-01) | 官方 README/Blog(2025-09/10) |
(表格要点来源:Qwen2-VL 论文摘要;Qwen2.5-VL 官方博文与说明;Qwen3-VL 官方 README 与新闻条目。)arXiv+2Qwen+2
四、具体功能亮点与示例
1)文档/表单/票据结构化
-
Qwen2.5-VL 提供 QwenVL HTML:把复杂版面转成带 bbox 的 HTML DOM,有利于二次解析与落库;同时支持 JSON 结构化(如发票字段抽取)。Qwen
-
Qwen3-VL 在此基础上进一步提升鲁棒性与召回,适合长文档(合同/报告/手册)“阅读-抽取-问答”。GitHub
2)目标定位与空间推理
-
Qwen2.5-VL 已支持 bbox/points 的稳定 JSON 输出,用于头盔识别、关键点/部件定位等;
-
Qwen3-VL 强调 空间/遮挡/视角理解,并将 2D grounding → 3D/空间推理 扩展(利于车道-障碍-相对方位推断与 Embodied/Agent 任务)。Qwen+1
3)长视频与事件检索
-
Qwen2.5-VL:支持 >1 小时视频并“按事件定位片段”;
-
Qwen3-VL:在 Interleaved-MRoPE + 文本-时间戳 对齐下,强调 秒级索引 与长时依赖推理,可做“多摄像头/多小时”事故线索串联。Qwen+1
4)视觉 Agent(电脑/手机 GUI 自动化)
-
Qwen2.5-VL 已能直接“看屏幕-点按钮-填表单”;
-
Qwen3-VL 在 GUI 元素/功能理解、工具调度与任务闭环上进一步增强,适合做 视觉版 RPA/巡检自动化。Qwen+1
五、模型规模与开源形态
-
Qwen2-VL:2B/8B/72B 规模开源。arXiv
-
Qwen2.5-VL:3B/7B/72B(后续有 32B),并 发布了 AWQ 量化 方便落地。GitHub
-
Qwen3-VL:Dense/MoE 双线,已公布 235B-A22B、30B-A3B(含 Thinking 与 FP8 变体),代码与使用说明集中在官方仓库/说明页。GitHub+1
许可:Qwen3-VL 仓库标注 Apache-2.0 许可证。GitHub
六、工程落地:部署与性能要点
1)vLLM 快速部署(官方示例)
# vLLM >= 0.11.0
uv pip install -U vllm
pip install qwen-vl-utils==0.0.14 accelerate# (例)Serving Qwen3-VL 235B A22B 的 FP8 版本(需 H100+ / CUDA 12+)
vllm serve Qwen/Qwen3-VL-235B-A22B-Instruct-FP8 \--tensor-parallel-size 8 \--mm-encoder-tp-mode data \--enable-expert-parallel \--async-scheduling \--host 0.0.0.0 --port 22002
(命令来自官方 README,含 FP8/并行与示例脚本;更多 Docker/Web demo/SDK 见仓库。)GitHub
2)量化与硬件建议
-
3080/3090/A40/T4 等通用显卡:若显存紧张、以“误报复核/结构化抽取”为主,建议 Qwen2.5-VL-7B / 3B 的 AWQ 量化 先落地,延迟与吞吐兼顾;如需更强鲁棒性再尝试 Qwen3-VL-30B-A3B(可结合张量并行/流水线并行/多卡切图),但单卡 3080 显存较吃紧。GitHub
-
A100/H100:追求 长文档 + 长视频 + Agent 的强体验,优先 Qwen3-VL(可用 FP8 版本在 H100 上提速/省显存)。GitHub
七、快速上手代码片段
1)本地 vLLM 接口(图像 OCR/抽取)
from openai import OpenAI
client = OpenAI(api_key="EMPTY", base_url="http://127.0.0.1:22002/v1", timeout=3600)messages = [{"role": "user","content": [{"type": "image_url", "image_url": {"url": "https://.../receipt.png"}},{"type": "text", "text": "请抽取发票代码/号码/站点/金额,输出 JSON。"}
]}]resp = client.chat.completions.create(model="Qwen/Qwen3-VL-30B-A3B-Instruct",messages=messages,max_tokens=1024,
)
print(resp.choices[0].message.content)
(接口形式与示例取自官方 README,模型名可按你的部署替换。)GitHub
2)Qwen2.5-VL:定位/结构化 JSON(适合轻量复核)
-
官方示例展示了 “检测头盔/关键点/车辆”等并输出稳定 JSON;也有 票据/表格/快递单的结构化样例,可直接套你的字段模板。Qwen
八、如何选型:给到三种典型预算/目标的组合
-
性价比优先(8–16GB 显存):Qwen2.5-VL-7B(AWQ) → 做误报复核、OCR/结构化、基本事件检索。
-
均衡(24–48GB / 多卡):Qwen3-VL-30B-A3B(Instruct) → 更稳的长视频/空间推理与 Agent;必要时搭配小模型级联。
-
极致能力(H100 集群):Qwen3-VL-235B-A22B(Thinking/FP8) → 超长上下文、强视频检索与复杂 GUI 自动化。GitHub
九、与前代的差异清单(要点复盘)
-
上下文/长视频:Qwen3-VL 原生 256K → 1M,并在 时间戳对齐 上显著加强;Qwen2.5-VL 支持 >1h 与事件定位;Qwen2-VL 奠定统一视频范式。GitHub+2Qwen+2
-
定位/输出:Qwen2.5-VL 起步提供 BBox/Points + 稳定 JSON;Qwen3-VL 强化到 2D→3D/空间。Qwen+1
-
文档解析:Qwen2.5-VL 有 QwenVL HTML;Qwen3-VL 在鲁棒性/范围上继续提高。Qwen+1
-
视觉 Agent:2.5 可操作电脑/手机;3-VL 更强的 GUI 元素与任务闭环。Qwen+1
-
OCR 多语:3-VL 标注支持 32 语种 与弱质/倾斜场景;2.5 已具备多语 OCR 与丰富票据/表单抽取案例。GitHub+1
-
开源与量化:2.5-VL 提供 3B/7B/72B + AWQ;3-VL 提供 30B/235B 等多款(含 FP8),Dense/MoE 并行。GitHub