当前位置: 首页 > news >正文

CVPR小模型创新点深度分析:小VLM化身精准向导,大模型多模态推理效率全面加速,性能突破不再依赖算力堆叠

关注gongzhonghao【CVPR顶会精选

1.导读

1.1 论文基本信息

  • 论文标题:A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs

  • 作者Wangbo Zhao, Yizeng Han, Jiasheng Tang, Kai Wang, Zhikai Li, Yibing Song, Zhangyang Wang, Yang You

  • 作者单位新加坡国立大学、阿里巴巴达摩院、湖畔实验室、德克萨斯大学奥斯汀分校

  • 发表会议CVPR (IEEE/CVF Conference on Computer Vision and Pattern Recognition)

  • 论文链接:https://arxiv.org/html/2412.03324v1

图灵学术科研辅导

2.论文概述

2.1 核心问题

随着大型语言模型的成功,视觉语言模型已成为研究热点,并在各类多模态任务中展现出卓越的能力。然而,这些模型在处理图像时,会产生大量的视觉令牌,给推理过程带来了巨大的计算开销和效率挑战

本文针对大型VLM的推理效率问题,提出了一种名为SGL的创新性、免训练的加速框架。该框架的核心思想是利用一个小型VLM来指导和加速一个大型VLM的推理过程。

图片

2.2 实证研究发现了三个关键洞见

  • 局部信息不足:仅使用大型VLM特定单层的注意力图等局部信息来剪枝视觉令牌,在剪枝率较高时性能会急剧下降,无法准确识别关键视觉信息。

  • 全局信息有效但昂贵:聚合大型VLM所有层的注意力图可以非常精确地识别重要令牌,即使在极高的剪枝率下也能保持优异性能。但获取这种全局信息需要完整的推理前向传播,计算成本高昂,不具备实用性。

  • 小模型的近似性:研究发现,小型VLM的全局注意力图与大型VLM的全局注意力图高度相似,这为寻找一种低成本且高效的指导信号提供了可能。

图片

2.3

SGL框架包含两个核心技术

  • SGP:首先通过小型VLM进行一次完整的推理,并聚合其所有层的注意力图,以此计算出各个视觉令牌的重要性得分。然后,利用这个得分排序来指导大型VLM,在其中剪除大量不重要的视觉令牌,从而在保留关键信息的同时,显著降低计算负荷 。

  • SEE:对于那些“简单”的输入,如果小型VLM的回答置信度足够高,则直接采纳其结果,终止整个推理流程,完全跳过大型VLM的调用,进一步提升效率。

3.研究背景及相关工作

3.1 VLM的计算开销问题

现代主流的VLM,如LLaVa, InternVL, Qwen-VL等,通常采用“视觉编码器+大型语言模型”的架构。图像通过视觉编码器被转换为一系列视觉令牌,然后与文本令牌一同送入语言模型进行处理 。

图片

3.2 视觉令牌压缩的相关工作

  • 需要训练的方法:这类方法通常通过引入新的模块或设计新的训练目标来压缩信息。例如,Q-Former使用一组可学习的查询向量来浓缩视觉信息;令牌蒸馏和参数对齐等方法也属于此类。它们的共同缺点是需要额外的训练开销 。

  • 免训练的方法:(1)ToMe等方法在视觉编码器内部合并相似的令牌,但这可能忽略了后续语言模型处理中重要的图文交互信息 。(2)令牌剪枝:利用语言模型中特定层的注意力图来评估视觉令牌的重要性,并剪除得分较低的令牌。然而,本文通过实验证明,仅依赖单层注意力图的局部信息是次优的,尤其在高剪枝率下性能损失严重。该研究指出,虽然聚合所有层的注意力图效果最好,但其高昂的计算成本使其不切实际。

图片

3.3 模型置信度估计的相关工作

  • 评估模型的预测置信度对于构建可靠的人工智能系统至关重要。对于大型语言模型,已有多种方法用于估计生成文本的置信度,例如基于信息论的方法、集成方法或自反思方法。

  • 在实际应用中,高置信度的预测可以直接采纳,而低置信度的内容则可以交由更强大的模型或人工进行复核。本文提出的SEE机制便借鉴了这一思想,通过评估小型VLM的输出置信度来决定是否需要调用计算成本更高的大型VLM,从而实现计算资源的动态分配。

图片

4.实验设计和方法

4.1 小型VLM指导的视觉令牌剪枝

1.在小型VLM中聚合全局注意力图:首先,将输入的图像和文本提示送入小型VLM,收集并聚合所有 Transformer 层的注意力权重,以计算每个视觉令牌的重要性得分。随后,这个聚合过程分为两个阶段:预填充阶段、解码阶段。最终,将预填充阶段和解码阶段的注意力得分相加,得到每个视觉令牌的最终重要性得分A 。这个得分全面地衡量了视觉令牌与输入问题和生成答案的关联程度。

2.在大型VLM中进行剪枝:使用上一步从小型VLM中获得的重要性得分,A,对视觉令牌进行排序。将相同的图像和文本输入大型VLM,在其网络的一个较早的中间层,根据之前的排序,只保留重要性排名前 R% 的视觉令牌,其余的则被丢弃。最后,由于剪枝发生在较早的层,后续所有层的计算量都将大幅减少,从而实现显著的推理加速 

图片

4.2 SEE:小型VLM的早期退出机制

决策标准1.置信度分数,基于生成答案的序列概率计算得出,并进行长度归一化。这是一种衡量模型对其输出“自信”程度的直接方法。2.一致性分数,其基本假设是:如果小型VLM能够给出正确答案,那么它应该已经准确识别了关键的视觉令牌。因此,使用由SGP识别出的重要令牌子集再次在小型VLM中计算原始答案的生成概率。如果这个概率很高,说明模型在信息大量删减后依然能稳定生成相同的答案,即具有很高的一致性,也间接证明了其回答的可靠性。该分数的计算非常高效,因为使用了极高剪枝率的令牌,并且可以并行计算。

执行流程:计算出最终决策分数S后,将其与一个预设的阈值进行比较。如果分数高于阈值,则认为小型VLM的回答可靠,直接输出其结果并终止流程;否则,才继续调用大型VLM。

图片

4.3 实验设置

基准测试:视觉问答、视觉定位、综合多模态理解

对比方法:主要与两种代表性的免训练加速方法进行比较:ToMe和FastV(基于单层注意力的令牌剪枝)。

图灵学术科研辅导

5. 实验结果分析

5.1 SGP方法的有效性验证

在不使用SEE机制的情况下,研究者首先将SGP与FastV和ToMe在不同视觉令牌保留率(64%、35%、9%)下进行了对比。

  • 高保留率(64%):所有方法性能都与原始的InternVL-26B模型相当。这表明VLM中确实存在大量的视觉信息冗余,剪枝是可行且必要的。

  • 中等保留率(35%):FastV和ToMe的性能开始出现明显下降,尤其是在需要精细视觉理解的OCR相关任务和视觉定位任务上。相比之下,SGP在所有任务上几乎没有性能损失,维持了极具竞争力的表现。

  • 极低保留率(9%):FastV和ToMe的性能全面崩溃,因为它们无法准确保留关键的视觉令牌。而SGP在如此极限的剪枝率下,依然能保持原始模型约89.58%的综合性能,表现出惊人的鲁棒性。这充分证明了利用小型VLM的全局注意力图作为指导信号的优越性。

图片

5.2 SGP方法的有效性验证

  • 开销分析:在不使用SEE时,由于引入了小型VLM的额外计算,SGP在处理26B模型时比FastV和ToMe稍慢。但当目标大型VLM的尺寸增加到40B和76B时,小型VLM的开销占比减小,SGP的速度变得具有竞争力,同时性能优势更加凸显。

  • SEE的作用:引入SEE后,通过设置不同的早期退出率,SGL能够在几乎不损失性能的前提下,大幅缩短平均推理时间。

5.3 泛化能力分析

  • 对不同尺寸模型的泛化:实验证明,SGL框架对于不同尺寸的小型和大型VLM均具有良好的适应性。

  • 对不同架构模型的泛化:SGL被成功应用于Qwen2-VL和LLaVa-OV模型族。使用各自系列中的小型模型指导大型模型,在9%的极低令牌保留率下,依然能保持约96%的原始性能。这充分说明SGL是一个与模型架构无关的通用加速框架。

图片

6.论文总结

本文针对大型VLM推理效率问题,提出了免训练的SGL框架。研究发现,小型VLM的全局注意力图可作为大型VLM的精确替代品,优于依赖局部信息的方法。其核心SGP方法利用该洞见指导剪枝,在高剪枝率下仍能保持强大性能。结合SEE提前退出机制,框架可在“简单”任务上采纳小模型预测,实现性能与效率的平衡。该方法的有效性与泛化性已在11个基准及多种模型上得到全面验证。

http://www.dtcms.com/a/356073.html

相关文章:

  • 8.28作业
  • Android 编写高斯模糊功能
  • Github上传READ.md后出现不识别换行符的问题
  • Shell编程入门到实战:从基础语法到自动化脚本
  • 网络是怎样连接的,笔记整理
  • C语言知识点补充(链表和队列)
  • 8.变量和数据类型
  • 浏览器访问 ASP.NET Core wwwroot 目录下静态资源的底层实现
  • 多线程 线程池 并发
  • 机器视觉学习-day08-图像缩放
  • MBA/EMBA毕业论文写作总结
  • 第20章|轻松实现远程控制
  • NumPy 2.x 完全指南【三十二】通用函数(ufunc)之数学运算函数
  • 面试tips--JVM(1)--对象分配内存的方式TLAB
  • CTFshow系列——命令执行web61-68
  • C++之多态篇
  • 君正T31学习(四)- MT7682+VLC出图
  • 【python】python进阶——as关键字
  • 程序代码篇---类
  • SpringCloud Alibaba Nacos 注册中心/配置中心
  • SpringBoot 配置文件在运维开发中的应用
  • 基于springboot的商业店铺租赁系统
  • 在 Vue 前端(Vue2/Vue3 通用)载入 JSON 格式的动图
  • 校园文化活动管理系统设计与实现(代码+数据库+LW)
  • web前端知识——第一阶段
  • 【buildroot】【1. Buildroot版本与Linux内核调试对应关系】
  • 基于SpringBoot的旅游景点推荐系统【2026最新】
  • 域名所有权变更,需要重新备案吗
  • Day16_【机器学习分类】
  • 软磁材料与硬磁材料