当前位置: 首页 > news >正文

[Token]What Kind of Visual Tokens Do We Need? AAAI2025

What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning for Multi-modal Large Language Models from the Perspective of Graph
我们需要什么样的视觉标记?从图的角度看多模态大型语言模型的免训练可视化标记剪枝
paper|code

代码集成度较高,主要剪枝实现代码

文章目录

  • Abstract
  • Motivation
  • Method
  • Experiment
  • Inspiration

Abstract

多模态大型语言模型经常使用大量的视觉标记来弥补其视觉缺陷,导致计算量过大,视觉冗余明显。在本文中,我们研究了 MLLM 需要什么样的视觉标记,前景和背景标记对于 MLLM 都至关重要。基于这一观察,我们提出了一种基于图的免训练视觉标记修剪方法,G-Prune将视觉token视为节点,并根据它们的语义相似性构建它们的连接。之后,信息流通过加权链接传播,迭代后最重要的token保留给 MLLM。

Motivation

在这里插入图片描述
Fig. 1(a)分别展示了随机裁剪、保前景裁剪、保背景裁剪和G-Prune几种裁剪方式的acc随着裁剪率变化的曲线。
Fig. 1(b)展示了整个图像及其特定背景和前景区域的频率分布,计算前景和背景的𝑙2-Norm频率分布直方图,发现它们的分布具有显着的重叠。

为什么这里要展示L2Norm-频率直方图?
L2-Norm用来衡量特征对图片决策的重要程度。如果直接剪掉L2-Norm较低的分支,可能会误删图像中的重要信息。这里统计了整张图片、背景和前景在不同L2-Norm上的频率,重叠部分表示MLLM 任务需要更精细的剪枝策略(如 G-Prune),不能简单依赖 L2-Norm 或前景保留。

将视觉token视为图形节点,并根据特征距离构建其连接。之后,通过迭代算法在节点之间进行信息传播,以更新重要性得分。最后,可以为MLLM选择最重要的令牌,这可能是前景或背景。这样,可以为MLLM选择最代表的视觉令牌,从而大大降低了序列长度和计算复杂性。

Method

在这里插入图片描述
在这里插入图片描述

Experiment

在这里插入图片描述
在这里插入图片描述
消融实验

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Inspiration

group放到mamba做分组扫描

相关文章:

  • 搭建spark伪分布集群
  • spark行动算子
  • MCP Client适配DeepSeek
  • 时间序列数据集构建方案Pytorch
  • Android学习总结之网络篇补充
  • ACE-Step:扩散自编码文生音乐基座模型快速了解
  • ActiveMQ 源码剖析:消息存储与通信协议实现(二)
  • 使用 Couchbase Analytics Service 的典型步骤
  • [GESP202406 七级] 黑白翻转
  • FAISS(Facebook AI Similarity Search)
  • 单片机-STM32部分:6、不同编程方式-寄存器、标准库、HAL库、LL库
  • Scrapy框架之Scrapyd部署及Gerapy分布式爬虫管理框架的使用
  • MCU缓存架构设计与优化策略
  • MySQL关于锁的面试题
  • 【详细教程】ROC曲线的计算方式与绘制方法详细介绍
  • 基于SeaFormer的YOLOv8性能提升策略—轻量高效注意力模块Sea_AttentionBlock在语义分割中的应用研究
  • 性能比拼: HTTP/2 vs. HTTP/3
  • 【算法】随机快速排序和随机选择算法
  • QT编程练习20250507
  • 【C++】C++中this指针的介绍及使用
  • 黄土是他们的气质:打破宁夏当代油画创作的沉寂
  • 全国重点网络媒体和网络达人走进沧州,探寻“文武双全”的多重魅力
  • 为发期刊,高校学者偷贩涉密敏感数据!国安部披露间谍案细节
  • 中国社科院:网文市场超430亿元,作者破3000万人
  • 云南多地突查公职人员违规饮酒:公安局门口开展酒精吹气测试
  • 习近平会见斯洛伐克总理菲佐