当前位置：首页 > news >正文

Moviechat论文阅读

news 2025/9/26 11:25:47

1.摘要

background

最近，将视频基础模型与大语言模型（LLM）结合的视频理解系统展现了巨大潜力，但现有系统只能处理包含极少帧数的短视频。对于长视频（如电影、电视剧），巨大的计算复杂度、高昂的内存成本以及如何连接长时间的上下文信息成为了主要的挑战。现有方法在处理超过几百帧的视频时就会遇到显存瓶颈。

innovation

为了解决长视频理解的挑战，论文提出了一个名为 MovieChat 的新框架。其核心创新点如下：

1.受认知科学启发的记忆机制：借鉴了 Atkinson-Shiffrin 记忆模型，将视频信息处理分为短期记忆和长期记忆。短期记忆是一个固定长度的缓冲区，用于处理眼前的、密集的视频帧信息（Dense Token）；长期记忆则通过一个特殊的“记忆巩固”机制，将短期记忆中的信息进行压缩，形成稀疏但关键的记忆（Sparse Memory）进行永久存储。

2.高效的记忆巩固：通过周期性地合并（merge）短期记忆中相似的相邻帧来减少信息冗余，从而将密集的视觉Token转化为稀疏的记忆表示。这个过程无需额外参数，极大地降低了计算和存储开销。

3.显著的效率优势：相比于 Video-LLaMA、VideoChatGPT 等先前方法，MovieChat 在处理长视频时的显存（VRAM）成本降低了约 10000倍。这使得它可以在一块24GB显存的GPU上处理超过10000帧的视频，而其他方法在100帧左右就会崩溃。

4.发布首个长视频理解基准：为了评估模型性能，论文还构建并发布了 MovieChat-1K 数据集，包含1000个长视频和14000个人工标注的问答对。

2. 方法 Method

总体流程 (Pipeline)：

MovieChat的流程如图2所示，是一个总分结构。首先，模型通过一个滑窗从视频中逐帧提取视觉特征；这些特征（以Token形式表示）被送入一个固定大小的短期记忆模块；当短期记忆存满后，一个记忆巩固模块会将最早进入的、最冗余的帧信息进行压缩，并存入长期记忆模块；最后，根据用户的提问模式（全局理解或针对某个时间点的理解），模型会整合长期记忆和/或短期记忆，通过一个投影层（Q-Former）输入到大语言模型中，生成最终的回答。

各模块详解：

视觉特征提取 (Visual Feature Extraction)：

输入：原始视频流（T帧 HxW 分辨率的RGB图像）。

做法：使用一个预训练的、基于图像的ViT模型（如EVA-CLIP的ViT-G/14）和一个Q-former（来自BLIP-2），以滑动窗口的方式逐帧提取特征。这样做是因为强大的视频基础模型较少，且后续的记忆机制能有效捕捉时序关系。

输出：每个视频帧对应的视觉Token序列。

短期记忆 (Short-term Memory, S)：

输入：从视觉特征提取模块输出的帧Token。

做法：它是一个固定长度的先进先出（FIFO）队列，用作一个临时缓冲区，存储最近一段时间内的、密集的视频帧信息。

输出：当队列满时，最早进入的帧Token会被“弹出”，送往记忆巩固模块。

记忆巩固与长期记忆 (Memory Consolidation & Long-term Memory, L)：

输入：从短期记忆模块弹出的帧Token。

做法：这是框架的核心。它采用一个无参数的迭代合并算法（见Algorithm 1）。算法会计算相邻帧Token之间的余弦相似度，然后贪婪地将最相似的一对帧进行加权平均合并成一个Token。这个过程不断重复，直到Token数量减少到一个预设的阈值。