当前位置：首页 > news >正文

VideoChat-Flash论文阅读

news 2025/9/26 9:31:21

论文发布时间: 2025年7月13日

1.摘要

background

处理长时程视频（如电影、在线直播等）是多模态大语言模型（MLLM）的一项关键能力，但目前仍极具挑战性。其核心困难在于，长视频会产生海量的视觉Token（例如，Gemini 1.5-Pro处理一小时视频会产生近百万Token），这带来了巨大的计算和内存开销，使得模型难以高效地理解和处理长视频的上下文信息。

innovation

为了解决这一挑战，本文提出了一个名为 VideoChat-Flash 的全新视频MLLM，其贡献是系统性的，涵盖了模型架构、训练数据、训练策略和评估基准。

1.分层视频Token压缩 (HiCo)：这是核心的架构创新。它将视频压缩分为两个层级：

片段级 (Clip-level)：在视频编码阶段，利用视频帧间的时空冗余，通过视频编码器（UMT）和相似Token合并技术，实现对每个视频片段的极致压缩，压缩比高达约 1/50，且几乎没有性能损失。

视频级 (Video-level)：在LLM推理阶段，利用LLM处理长视频时注意力（Attention）的稀疏性，在浅层网络中均匀丢弃部分视觉Token，在深层网络中根据文本引导保留关键Token，进一步降低计算量。

2.多阶段“从短到长”的学习策略：设计了一套课程学习方案，让模型先从图像和短视频中学习基础的视觉感知能力，再通过与长视频数据的联合训练，逐步扩展其处理长时程上下文的能力。

3.大规模长视频数据集 (LongVid)：为解决长视频训练数据不足的问题，构建了一个包含30万小时视频和20亿单词文本标注的大规模数据集。

4.更具挑战性的评估基准 (“Multi-Hop Needle-In-A-Video-Haystack”)：提出了一个新的“大海捞针”测试，它要求模型在视频中根据一系列线索进行多步推理才能找到最终的“针”，比传统的单步检索任务更能评估模型的复杂推理能力。

2. 方法 Method

总体流程 (Pipeline)：

VideoChat-Flash的流程如图3所示，是一个高效处理长视频的流水线。首先，对输入的长视频进行基于时长的采样（短视频采得密，长视频采得疏）；然后，将采样后的帧序列分割成多个片段 (Clips)；每个片段独立地经过一个共享的视频编码器和一个连接器进行片段级压缩，将大量帧信息压缩成极少量的Token；所有片段的压缩Token被拼接起来，送入大语言模型（LLM）；在LLM的推理过程中，再进行视频级压缩（即渐进式视觉Token丢弃），最终根据用户的问题生成回答。

各模块详解：

输入 (Input)：原始长视频文件 + 用户提出的自然语言问题。

片段级压缩 (Clip-level Compression)：

输入：一个视频片段（例如4帧图像）。

做法：使用一个带有时空注意力机制的视频编码器（UMT-L）来聚合帧间信息，然后通过一个无参数的相似Token合并操作，将高度相似的Token融合成一个。

输出：每个片段的高度浓缩的视觉Token序列（例如，平均每帧只用16个Token表示）。

视频级压缩 (Video-level Compression / Progressive Visual Dropout)：

输入：拼接好的、来自所有片段的视觉Token序列。

做法：这是一个在LLM内部进行的动态压缩。在LLM的浅层（例如前4层），均匀随机地丢弃一部分Token以减少计算量，同时保留视频的整体时空结构；在LLM的深层（例如第18层之后），根据文本Token对视觉Token的注意力得分来保留最相关的Token。

输出：在LLM深层中，一个更短、更聚焦于任务相关信息的视觉Token序列。

多阶段短到长学习：

阶段一：视觉-语言对齐。冻结视觉编码器和LLM，只训练连接器，对齐视觉特征和语言空间。