当前位置：首页 > news >正文

CVPR小模型创新点深度分析：小VLM化身精准向导，大模型多模态推理效率全面加速，性能突破不再依赖算力堆叠

news 2025/8/29 16:18:56

关注gongzhonghao【CVPR顶会精选】

1.导读

1.1 论文基本信息

论文标题：《A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs》
作者：Wangbo Zhao, Yizeng Han, Jiasheng Tang, Kai Wang, Zhikai Li, Yibing Song, Zhangyang Wang, Yang You
作者单位：新加坡国立大学、阿里巴巴达摩院、湖畔实验室、德克萨斯大学奥斯汀分校
发表会议：CVPR (IEEE/CVF Conference on Computer Vision and Pattern Recognition)
论文链接：https://arxiv.org/html/2412.03324v1

图灵学术科研辅导

2.论文概述

2.1 核心问题

随着大型语言模型的成功，视觉语言模型已成为研究热点，并在各类多模态任务中展现出卓越的能力。然而，这些模型在处理图像时，会产生大量的视觉令牌，给推理过程带来了巨大的计算开销和效率挑战

本文针对大型VLM的推理效率问题，提出了一种名为SGL的创新性、免训练的加速框架。该框架的核心思想是利用一个小型VLM来指导和加速一个大型VLM的推理过程。

2.2 实证研究发现了三个关键洞见

局部信息不足：仅使用大型VLM特定单层的注意力图等局部信息来剪枝视觉令牌，在剪枝率较高时性能会急剧下降，无法准确识别关键视觉信息。
全局信息有效但昂贵：聚合大型VLM所有层的注意力图可以非常精确地识别重要令牌，即使在极高的剪枝率下也能保持优异性能。但获取这种全局信息需要完整的推理前向传播，计算成本高昂，不具备实用性。
小模型的近似性：研究发现，小型VLM的全局注意力图与大型VLM的全局注意力图高度相似，这为寻找一种低成本且高效的指导信号提供了可能。

2.3

SGL框架包含两个核心技术

SGP：首先通过小型VLM进行一次完整的推理，并聚合其所有层的注意力图，以此计算出各个视觉令牌的重要性得分。然后，利用这个得分排序来指导大型VLM，在其中剪除大量不重要的视觉令牌，从而在保留关键信息的同时，显著降低计算负荷。
SEE：对于那些“简单”的输入，如果小型VLM的回答置信度足够高，则直接采纳其结果，终止整个推理流程，完全跳过大型VLM的调用，进一步提升效率。

3.研究背景及相关工作

3.1 VLM的计算开销问题

现代主流的VLM，如LLaVa, InternVL, Qwen-VL等，通常采用“视觉编码器+大型语言模型”的架构。图像通过视觉编码器被转换为一系列视觉令牌，然后与文本令牌一同送入语言模型进行处理。

3.2 视觉令牌压缩的相关工作

需要训练的方法：这类方法通常通过引入新的模块或设计新的训练目标来压缩信息。例如，Q-Former使用一组可学习的查询向量来浓缩视觉信息；令牌蒸馏和参数对齐等方法也属于此类。它们的共同缺点是需要额外的训练开销。
免训练的方法：（1）ToMe等方法在视觉编码器内部合并相似的令牌，但这可能忽略了后续语言模型处理中重要的图文交互信息。（2）令牌剪枝：利用语言模型中特定层的注意力图来评估视觉令牌的重要性，并剪除得分较低的令牌。然而，本文通过实验证明，仅依赖单层注意力图的局部信息是次优的，尤其在高剪枝率下性能损失严重。该研究指出，虽然聚合所有层的注意力图效果最好，但其高昂的计算成本使其不切实际。

3.3 模型置信度估计的相关工作

评估模型的预测置信度对于构建可靠的人工智能系统至关重要。对于大型语言模型，已有多种方法用于估计生成文本的置信度，例如基于信息论的方法、集成方法或自反思方法。
在实际应用中，高置信度的预测可以直接采纳，而低置信度的内容则可以交由更强大的模型或人工进行复核。本文提出的SEE机制便借鉴了这一思想，通过评估小型VLM的输出置信度来决定是否需要调用计算成本更高的大型VLM，从而实现计算资源的动态分配。

4.实验设计和方法

4.1 小型VLM指导的视觉令牌剪枝

1.在小型VLM中聚合全局注意力图：首先，将输入的图像和文本提示送入小型VLM，收集并聚合所有 Transformer 层的注意力权重，以计算每个视觉令牌的重要性得分。随后，这个聚合过程分为两个阶段：预填充阶段、解码阶段。最终，将预填充阶段和解码阶段的注意力得分相加，得到每个视觉令牌的最终重要性得分A 。这个得分全面地衡量了视觉令牌与输入问题和生成答案的关联程度。

2.在大型VLM中进行剪枝：使用上一步从小型VLM中获得的重要性得分，A，对视觉令牌进行排序。将相同的图像和文本输入大型VLM，在其网络的一个较早的中间层，根据之前的排序，只保留重要性排名前 R% 的视觉令牌，其余的则被丢弃。最后，由于剪枝发生在较早的层，后续所有层的计算量都将大幅减少，从而实现显著的推理加速

4.2 SEE：小型VLM的早期退出机制

决策标准：1.置信度分数，基于生成答案的序列概率计算得出，并进行长度归一化。这是一种衡量模型对其输出“自信”程度的直接方法。2.一致性分数，其基本假设是：如果小型VLM能够给出正确答案，那么它应该已经准确识别了关键的视觉令牌。因此，使用由SGP识别出的重要令牌子集再次在小型VLM中计算原始答案的生成概率。如果这个概率很高，说明模型在信息大量删减后依然能稳定生成相同的答案，即具有很高的一致性，也间接证明了其回答的可靠性。该分数的计算非常高效，因为使用了极高剪枝率的令牌，并且可以并行计算。

执行流程：计算出最终决策分数S后，将其与一个预设的阈值进行比较。如果分数高于阈值，则认为小型VLM的回答可靠，直接输出其结果并终止流程；否则，才继续调用大型VLM。

4.3 实验设置

基准测试：视觉问答、视觉定位、综合多模态理解

对比方法：主要与两种代表性的免训练加速方法进行比较：ToMe和FastV（基于单层注意力的令牌剪枝）。

图灵学术科研辅导

5. 实验结果分析

5.1 SGP方法的有效性验证

在不使用SEE机制的情况下，研究者首先将SGP与FastV和ToMe在不同视觉令牌保留率（64%、35%、9%）下进行了对比。

高保留率（64%）：所有方法性能都与原始的InternVL-26B模型相当。这表明VLM中确实存在大量的视觉信息冗余，剪枝是可行且必要的。
中等保留率（35%）：FastV和ToMe的性能开始出现明显下降，尤其是在需要精细视觉理解的OCR相关任务和视觉定位任务上。相比之下，SGP在所有任务上几乎没有性能损失，维持了极具竞争力的表现。
极低保留率（9%）：FastV和ToMe的性能全面崩溃，因为它们无法准确保留关键的视觉令牌。而SGP在如此极限的剪枝率下，依然能保持原始模型约89.58%的综合性能，表现出惊人的鲁棒性。这充分证明了利用小型VLM的全局注意力图作为指导信号的优越性。

5.2 SGP方法的有效性验证

开销分析：在不使用SEE时，由于引入了小型VLM的额外计算，SGP在处理26B模型时比FastV和ToMe稍慢。但当目标大型VLM的尺寸增加到40B和76B时，小型VLM的开销占比减小，SGP的速度变得具有竞争力，同时性能优势更加凸显。
SEE的作用：引入SEE后，通过设置不同的早期退出率，SGL能够在几乎不损失性能的前提下，大幅缩短平均推理时间。

5.3 泛化能力分析

对不同尺寸模型的泛化：实验证明，SGL框架对于不同尺寸的小型和大型VLM均具有良好的适应性。
对不同架构模型的泛化：SGL被成功应用于Qwen2-VL和LLaVa-OV模型族。使用各自系列中的小型模型指导大型模型，在9%的极低令牌保留率下，依然能保持约96%的原始性能。这充分说明SGL是一个与模型架构无关的通用加速框架。

6.论文总结

本文针对大型VLM推理效率问题，提出了免训练的SGL框架。研究发现，小型VLM的全局注意力图可作为大型VLM的精确替代品，优于依赖局部信息的方法。其核心SGP方法利用该洞见指导剪枝，在高剪枝率下仍能保持强大性能。结合SEE提前退出机制，框架可在“简单”任务上采纳小模型预测，实现性能与效率的平衡。该方法的有效性与泛化性已在11个基准及多种模型上得到全面验证。

查看全文

http://www.dtcms.com/a/356073.html