当前位置: 首页 > news >正文

HICom论文阅读

2025

1.摘要

background

       视频多模态大语言模型(MLLMs)在处理视频时面临巨大的计算开销,因为视频包含大量帧,从而产生海量的视觉token。现有的主流解决方法是无条件压缩(unconditional compression),例如对每帧进行空间池化(spatial pooling)或使用Q-Former/Resampler将所有帧压缩成固定数量的token。然而,这种“一刀切”的压缩方式没有考虑用户的具体指令(问题),可能会丢失与问题相关的关键视觉信息,导致性能下降。

innovation

本文的核心思想是引入指令作为条件来指导视频token的压缩过程,即条件化压缩(Conditional Compression),确保压缩过程能最大程度地保留与用户意图相关的信息。为此,论文提出了一个名为HICom (Hybrid-level Instruction Injection Strategy for Conditional Token Compression) 的新框架。

1.混合层级指令注入 (Hybrid-Level Instruction Injection): 这是HICom的核心。它模仿人类“先粗后精”的观察模式,在两个层级上注入指令信息来指导压缩:

局部层面 (Local Level): 将视频token(时空维度)分成多个组(group),在每个组内部,利用指令信息进行注意力计算,将该组压缩成一个token。这有助于保留视频的时空结构,并关注每个局部区域内的相关细节。

全局层面 (Global Level): 将指令信息注入到一组可学习的token中,让这些token与整个视频的所有token进行注意力计算,从而从全局视角捕捉与指令最相关的信息。

2.新的条件化预训练阶段: 为了充分发挥HICom的潜力,作者提出了一个新的三阶段训练范式(对齐->条件化预训练->指令微调),并为此构建了一个新的数据集HICom-248K。这个新的预训练阶段使用“指令-描述”对来专门训练条件化压缩模块,使其更好地学会如何根据指令来筛选信息。

好处与对比: 与SOTA方法(如LLaVA-Video-7B)相比,HICom在多个视频问答基准上取得了更高的性能(平均提升2.43%),同时节省了78.8%的视觉token。这证明了条件化压缩能在大幅降低计算成本的同时,更有效地保留关键信息,从而提升了模型的理解能力。

2. 方法 Method

总体 Pipeline:

HICom是一个位于视觉编码器和LLM之间的条件化压缩模块。它的pipeline如下:

输入: 视觉编码器输出的视频帧特征 V (尺寸为 T x H x W x D) 和 文本编码器输出的指令特征 C。

输出: 经过压缩后的、数量大大减少的视觉token序列,然后送入LLM。

各部分详解 (HICom):

1.局部层面压缩 (Local-Level Compression):

分组: 将输入的视频特征 V 沿着时空维度(T, H, W)划分成 NT x NH x NW 个小的数据块(group)。

压缩: 对每个数据块,先将其内部的token池化成一个token V_p。然后,使用指令注入模块将指令特征 C 注入到 V_p 中,得到查询向量 Q。最后,在这个数据块内部进行自注意力计算 Attention(Q, K, V),将整个块压缩成一个输出token Z_l。

作用: 保持视频原有的时空网格结构,关注局部细节。

2.全局层面压缩 (Global-Level Compression):

可学习Token: 初始化一组数量较少的可学习token L。

压缩: 使用指令注入模块将指令特征 C 注入到 L 中,得到查询向量 Q。然后,用这个Q与整个视频的所有token(经过3D位置编码)进行交叉注意力计算 Attention(Q, K_V, V),得到压缩后的全局token Z_g。

作用: 从全局视角捕捉与指令最相关的信息,作为局部压缩的补充。

3.指令注入模块 (Instruction Condition Injection):

论文探索了三种注入方式:直接注入(用MLP直接转换指令token)、粗粒度注入(类似AdaLN,用指令token生成缩放和平移参数)、细粒度注入(用指令token和视觉token做交叉注意力)。实验表明,局部压缩用“直接注入”效果好,全局压缩用“粗粒度注入”效果好。

4.三阶段训练范式:

阶段一:对齐 (Alignment Stage): 类似于LLaVA,使用图文对数据训练视觉编码器和LLM的连接。此时压缩模块不工作

阶段二:条件化预训练 (Conditional Pre-training Stage): (核心贡献) 在此阶段,使用专门构建的HICom-248K数据集(包含“指令-描述”对),来预训练整个压缩模块(包括指令注入部分)。这使得模块学会如何根据指令来提取相关的视觉信息并生成描述。

阶段三:指令微调 (Instruction Tuning Stage): 使用通用的视频问答数据集对整个模型(主要是LLM和压缩模块)进行微调。

3. 实验 Experimental Results

实验数据集:

条件化预训练: 自建的 HICom-248K 数据集,包含24.8万个视频片段和73.9万个“指令-描述”对。

评测: 在多个主流视频问答基准上进行评估,包括 VideoMME, MV-Bench, EgoSchema (多选QA) 和 ActivityNet-QA, VideoChatGPT Bench (开放式QA)。

每个实验的结论:

1.SOTA性能 (Table 2): 在三个多选QA基准上,HICom-7B模型以远少于其他模型的token数量(例如,相比LLaVA-Video的6272个token,HICom只需1328个),取得了更高的平均分,证明了其压缩效率和性能优势。

2.组件分析 (Table 4): 消融实验证明,条件化压缩显著优于无条件压缩;而局部+全局的混合层级压缩效果最好,优于只使用其中任何一个。

3.条件化预训练阶段的有效性 (Table 5): 实验证明,增加了新的条件化预训练阶段后,模型在所有基准上的性能都有一致的提升(平均1.17%),验证了该阶段的必要性。

4.长视频泛化能力: HICom由于其高效的压缩机制,在推理时可以轻松扩展到更多的帧数(如从32帧扩展到128帧),从而在处理中长视频时性能提升明显,展现了良好的泛化能力。

5.定性分析 (Figure 6): 可视化注意力图显示,在加入指令条件后,压缩模块确实能更准确地关注到与问题相关的物体(如蜡烛台、圣诞树),而无条件压缩的注意力则比较分散。

4. 总结 Conclusion

       本文的核心信息是,在压缩视频token时,不应“盲目”压缩,而应利用用户的指令作为“向导”。通过在局部和全局混合层级上进行条件化压缩,可以在大幅减少计算成本的同时,更智能地保留对回答问题至关重要的视觉信息,从而实现效率和性能的双赢。

http://www.dtcms.com/a/482382.html

相关文章:

  • Spring Framework源码解析——ServletContextAware
  • 苏州微网站建设公司做镜像网站
  • OpenStack 网络实现的底层细节-PORT/TAP
  • Chrome 安装失败且提示“无可用的更新” 或 “与服务器的连接意外终止”,Chrome 离线版下载安装教程
  • 02-如何使用Chrome工具排查内存泄露问题
  • 通过不同语言建立多元认知,提升创新能力
  • Tomcat 架构解析与线程池优化策略
  • springboot在DTO使用service,怎么写
  • YOLOv1 详解:实时目标检测的开山之作
  • Vue3 + SpringBoot 分片上传与断点续传方案设计
  • CTFSHOW WEB 3
  • 做个网站费用建材营销型的网站
  • POrtSwigger靶场之CSRF where token validation depends on token being present通关秘籍
  • Java 离线视频目标检测性能优化:从 Graphics2D 到 OpenCV 原生绘图的 20 倍性能提升实战
  • 基于 Informer-BiGRUGATT-CrossAttention 的风电功率预测多模型融合架构
  • 如何做旅游网站推销免费企业信息发布平台
  • 基于RBAC模型的灵活权限控制
  • C++内存管理模板深度剖析
  • 新开的公司怎么做网站手机网站设计神器
  • Bootstrap5 选择区间
  • 考研10.5笔记
  • [c++语法学习]Day 9:
  • LeetCode算法日记 - Day 71: 不同路径、不同路径II
  • 掌握string类:从基础到实战
  • 【C++】四阶龙格库塔算法实现递推轨道飞行器位置速度
  • 网站建设的费用怎么做账网站开发视频是存储的
  • 张店学校网站建设哪家好高端品牌衣服有哪些
  • 区域网站查询游戏代理平台
  • 分布式控制系统(DCS)的智能组网技术解析及解决方案
  • React18学习笔记(六) React中的类组件,极简的状态管理工具zustand,React中的Typescript