Qwen2.5-VL 是什么?
Qwen2.5-VL 是什么?
Qwen2.5-VL 是 阿里达摩院推出的一系列多模态大模型,支持图像 + 语言理解与生成任务,比如图文问答、图像描述、视觉推理等。它是基于 Qwen2.5 基座语言模型,结合了 Vision Transformer(ViT)视觉编码器 + Vision-Language 融合模块 + LLM 语言模型。
🧠 模块划分
配置表中共分为三大模块:
1. ✅ Vision Transformer (ViT):图像编码器
负责将输入图像转换为视觉特征。
参数 | 含义 | 三个模型配置对比 |
---|---|---|
Hidden Size | 每个 patch token 的向量维度。表示 ViT 输出特征维度。 | 都是 1280 |
# Layers | Transformer 层数,越多表示视觉信息处理能力越强。 | 都是 32 层 |
# Num Heads | 注意力头的数量,用于 Multi-Head Attention。 | 都是 16 头 |
Intermediate Size | FFN(前馈网络)中间层维度,通常是 Hidden Size 的 2~4 倍,用于提升非线性表达能力。 | 都是 3456 |
Patch Size | 图像切片大小,每个 patch 是图像中的一个小块。 | 14 × 14 |
Window Size | 表示每个窗口关注的区域大小,影响注意力机制的局部性。 | 都是 112 |
Full Attention Block Indexes | 全局注意力所在的 Transformer 层索引(其余为窗口注意力),用于捕捉全局上下文。 | {7, 15, 23, 31} |
🔎 说明:ViT 配置在三个模型中完全一致,说明视觉编码器保持固定。
2. 🔄 Vision-Language Merger:视觉语言融合模块
把图像特征和语言特征融合,为语言模型生成提供输入。
参数 | 含义 | 对比 |
---|---|---|
In Channel | 输入通道数,对应 ViT 的输出维度(1280)。 | 全部是 1280 |
Out Channel | 输出通道数,表示融合后特征维度,也是送入 LLM 的输入维度 | 分别为 2048, 3584, 8192 |
📝 注意:随着模型规模增大,融合后的通道维度越大,表示更丰富的多模态语义表示能力。
3. 🧾 Large Language Model (LLM):语言模型(核心)
参数 | 含义 | 三个模型配置对比 |
---|---|---|
Hidden Size | 每个 token 的向量维度,即语言模型的特征维度 | 分别为 2048, 3584, 8192 |
# Layers | Transformer 层数,决定模型深度与学习能力 | 分别为 36, 28, 80 |
# KV Heads | 用于 KV cache 的注意力头数,与训练/推理效率相关 | 分别为 2, 4, 8 |
Head Size | 单个注意力头的维度 | 全部是 128 |
Intermediate Size | FFN 中间维度,决定非线性表达能力(通常是 Hidden Size × 2~4) | 分别为 4864, 18944, 29568 |
Embedding Tying | 是否词嵌入共享(输入 Embedding 和输出 Softmax 权重是否共享) | ✅(3B)共享,✗(7B/72B)不共享 |
Vocabulary Size | 词汇表大小,表示可识别的 token 种类数量 | 全部是 151,646 |
# Trained Tokens | 训练语料 token 数量,单位是 T(万亿),影响泛化能力 | 全部是 4.1T |
🔍 说明:
- 7B 层数比 3B 还少(28 vs 36),但参数更多,表示更宽(更大维度)而不是更深。
- 72B 模型深度大(80层),宽度也非常大,属于超大规模模型。
- 只在 3B 模型中使用了 Embedding Tying(参数共享) 来节省模型大小,较大模型未共享以增强灵活性。
✳️ 总结对比:
模型 | 模型规模 | 多模态融合维度 | LLM参数规模 | 适用场景 |
---|---|---|---|---|
3B | 中小型 | 2048 | 基础能力强 | 适合推理部署场景,如移动端、低算力 |
7B | 中大型 | 3584 | 更宽更强 | 适合通用图文问答等场景 |
72B | 超大模型 | 8192 | 超深超宽 | 适合科研、开放式多模态推理任务 |