当前位置：首页 > news >正文

主流开源视觉语言模型（VLM）的视觉编码器架构解析

news 2025/11/7 12:39:30

本文基于技术架构图，深入解析了当前开源视觉语言模型中三种主流的视觉编码器架构。这些架构虽被广泛采用，但各自存在明显的局限性，制约了模型性能的进一步提升。
在这里插入图片描述

一、总体概览

该示意图清晰地展示了三种常见的VLM视觉编码器设计，它们均遵循“图像输入 → 视觉编码 → 语言模型”的基本流程。图注明确指出，这三种编码器是当前开源VLM中的典型代表，但“都存在各自的缺陷”。

二、三种架构详解

以下从左至右对三种架构进行解析：

1. 架构一：Vary / DeepSeek-VL 系列

核心组成：图像输入后，经由视觉编码模块进行处理，最终输出给大语言模型。
标注缺点：不支持流水线并行。这意味着该架构在训练时难以通过流水线并行技术来有效扩展，可能会限制训练超大模型或长序列数据的效率。

2. 架构二：InternVL 系列 / DeepSeek-VL2 系列

核心组成：同样包含图像输入、视觉编码模块和LLM。
标注缺点：原生分辨率低。这表明该架构默认处理的图像分辨率较低，可能导致对图像细节信息的丢失，影响模型在需要高精度视觉理解任务上的表现。

3. 架构三：Qwen2.5-VL / Qwen3-VL 系列

核心组成：结构与其他两者类似，视觉编码模块可能采用了如VITDet等架构。
标注缺点：动态分辨率缺失。这指的是该架构无法灵活处理任意尺寸的输入图像，通常需要将图像调整到固定尺寸，这可能引入扭曲或裁剪，影响模型对原始图像内容的准确理解。

三、总结

综上所述，当前流行的开源VLM在视觉编码器设计上呈现出几种不同的技术路径，但无一完美。Vary/DeepSeek-VL系列受限于训练扩展性，InternVL/DeepSeek-VL2系列牺牲了图像分辨率，而Qwen2.5/3-VL系列则缺乏处理动态分辨率的灵活性。 这些缺陷指明了VLM技术未来的重要改进方向，例如开发支持高效并行训练、能够原生处理高分辨率及任意尺寸图像的视觉编码器，将是提升模型整体性能的关键。

核心内容中英对照：