当前位置: 首页 > news >正文

InternVL3.5多模态多大模型改进点及视觉分辨率路由模块技术浅尝

改进点概述:

InternVL3.5系列

  • 缝合最新开源模型:主要是语言模型侧的替换,如:qwen3和GPT-OSS
  • 引入视觉分辨率路由器(ViR)模块,该模块可动态选择视觉 token 的最小分辨率,从而实现更好的推理效率
  • 解耦视觉-语言部署(DvD),提升推理速度
  • 级联强化学习,提升模型性能

InternVL3.5模型架构延续了 InternVL 的 **“ViT–MLP–LLM” 范式**,同时针对性能增强和效率优化目标,衍生出基础版 InternVL3.5 和高效版 InternVL3.5-Flash 两个分支。

本文仅看下这个ViR模块,因为从之前介绍的多个模型如:《Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析》、《Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节》等多模态大模型及《多模态大模型中不同分辨率策略研究与原生分辨率的有效性评估》的结论看,原生分辨率能够有效提升多模态大模型的性能,并广泛得到使用,InternVL3.5仍然使用着动态高分辨率,但这会带来token数量的增加,从而影响推理效率,但这次增加了一个ViR模块,让其可动态选择视觉 token 的最小分辨率,从而实现更好的推理效率。

视觉分辨率路由器(ViR)模块

Visual Consistency Learning(ViCO)是 InternVL3.5 为构建高效变体 InternVL3.5-Flash 设计的核心训练技术,其核心目标是:在将视觉 token 数量减少 50% 的同时,保持模型输出与原始高分辨率模型的一致性(近 100% 性能),为 “Visual Resolution Router(ViR,视觉分辨率路由器)” 的动态压缩策略提供训练支撑。

在 InternVL3.5-Flash 中,ViR 模块需要实现“语义感知的动态token压缩”(如将部分图像patch从256token压缩至64token),但直接引入动态压缩会面临两个关键问题:

  1. 输出不一致:不同压缩率(1/4 vs 1/16)会导致视觉token的语义信息损失差异,若模型对同一图像的不同压缩输入输出差异过大,会直接导致性能下降;
  2. 路由决策无依据:ViR 需判断“哪些patch该高压缩、哪些该低压缩”,但缺乏量化标准(如“语义丰富度”无法直接测量)。

因此,ViCO 目标:

  • 目标1:输出一致性:通过训练让模型对“低压缩率(保留细节)”和“高压缩率(减少冗余)”的视觉输入,生成尽可能一致的输出(如回答、推理结果);
  • 目标2:路由可学习:构建量化指标(语义压缩敏感性),训练 ViR 成为“智能路由器”,精准选择压缩率。
ViCO 的双阶段训练流程

ViCO 分为两个递进的训练阶段,先优化模型输出一致性,再训练 ViR 的路由策略,且两个阶段均基于“冻结主模型+轻量微调”的思路,避免破坏基础模型性能。

第一阶段:一致性训练(Consistency Training)

让 InternVL3.5-Flash 的“Policy Model”对不同压缩率的视觉输入(64token 或 256token),输出分布与“Reference Model”(即原始 InternVL3.5)尽可能一致,最小化因压缩导致的性能损失。具体的:冻结的 InternVL3.5 基础模型,固定使用 1/4 压缩率(将1024视觉token压缩至256token),作为“高保真输出基准”;待训练的 InternVL3.5-Flash 模型,输入图像patch会随机采用 1/4 或 1/16 压缩率(对应256token或64token),目标是让其输出向参考模型对齐。

训练数据复用 SFT 阶段的数据(如多模态问答、OCR、文档理解数据),确保训练场景与主任务一致;
输入构造:对每张图像的每个patch,随机采样压缩率 ξ(ξ ∈ {1/4, 1/16}):

  • ξ=1/4 时,图像 I_ξ 表示为 256 个视觉token;
  • ξ=1/16 时,图像 I_ξ 表示为 64 个视觉token。

损失函数:KL散度最小化:通过 KL 散度约束,强制政策模型无论输入是64token还是256token,输出都与参考模型(256token)保持一致,从而避免压缩导致的语义偏移。

训练方式:仅微调政策模型的 MLP投影器LLM的部分层(不微调ViT和ViR),确保视觉编码能力不被破坏,同时高效对齐输出分布;训练过程中,所有图像patch采用随机压缩率,保证模型对两种压缩率都能适应。

第二阶段:路由器训练

训练 ViR 模块(二分类器)学会“语义感知的压缩率选择”——对语义丰富的patch(如文字、图表细节)选1/4压缩率(保留细节),对语义简单的patch(如纯色背景)选1/16压缩率(减少冗余)。ViR 结构:轻量卷积神经网络(CNN),作为二进制分类器(输出0或1);

ViR 的训练方式:训练时冻结政策模型的 ViT、MLP、LLM 部分,仅微调 ViR 模块,避免影响已对齐的输出一致性。使用 SFT 阶段中“视觉信息密集”的数据(如 OCR、VQA、图表理解数据),这类数据包含大量语义丰富的patch(如文字、公式),能更精准训练 ViR 的语义判断能力。

InternVL3.5 的训练方案概述

InternVL3.5 的训练方案。InternVL3.5 包含三个训练阶段:(1)用于视觉-语言对齐的原生预训
练,(2)用于适配下游任务的监督微调,(3)用于提升推理能力的级联强化学习。InternVL3.5-Flash
是 InternVL3.5 的高效版本,通过一致性训练和路由训练进一步集成了视觉分辨率路由模块(ViR)

加速部署的解决方案:

解耦视觉-语言部署概述。DvD 将视觉模型和语言模型分离,并将其部署在不同的服务器上。右
侧展示了流水线的时间消耗迹线。(a) 在原始部署中,ViT、MLP 和 LLM 是顺序执行的。由于它们
在大小和计算模式上存在显著差异,这种串行设计会显著降低推理速度。(b) 使用 DvD 后,ViT 和
LLM 的推理并行且异步地进行。因此,ViT 的计算可以与 LLM 的预填充和解码重叠,减少资源冲突,
提高推理速度。

InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency,https://arxiv.org/pdf/2508.18265

http://www.dtcms.com/a/495033.html

相关文章:

  • 人工智能基础知识笔记十八:Prompt Engineering
  • 深入理解Shell与反弹Shell:从原理到实战
  • LangChain 基础系列之 Prompt 工程详解:从设计原理到实战模板_langchain prompt
  • EvalScope模型压力测试实战
  • 极速网站建设服务商厦门网站建设网络推广
  • 新建网站如何调试网页设计公司的调研
  • 模拟oracle 索引平衡树叶子节点
  • Android 内存优化
  • Java JVM “垃圾回收(GC)”面试清单(含超通俗生活案例与深度理解)
  • Python快速落地的临床知识问答与检索项目(2025年9月教学实现部分)
  • 从0到1掌握Spring Boot自动配置:自定义配置实战指南
  • 索引设计速查:哪些字段该建索引?哪些不能建?
  • 自己的主机做网站服务器小树建站平台
  • 英集芯-IP5385开发调试总结
  • ProfiNet转EtherNet/IP工业PLC网关:打通仓储PLC与机器人通讯链路
  • Linux C/C++ 学习日记(27):KCP协议(三):代码结构分析与使用示例
  • 系统移植篇之uboot-5:DDR内存
  • 新开传奇网站刚开上海软件开发公司排名
  • C语言之可变参函数
  • Centos 7 环境下mysql的安装及配置
  • CentOS修改MySQL数据目录后重启失败的问题及解决方案
  • 南宁市优化网站宜昌网站建设
  • 医药网站 备案做哪个网站的直播好
  • 永磁同步电机电流环低“采样与基频比率”(S2F)性能影响与改进
  • Vue3 - defineExpose的使用
  • Go Web 编程快速入门 01 - 环境准备与第一个 Web 应用
  • 图像处理之腐蚀算法-收缩去噪
  • 基于单片机的智能鱼塘饵料投喂系统设计
  • 串扰16-保护地线
  • LED氛围灯方案开发MCU控制芯片