当前位置: 首页 > news >正文

LLaVA-Video论文阅读

2025.6

1.摘要

background

视频大型多模态模型 (Video LMMs) 的发展受到了一个核心瓶颈的制约:难以获取大规模、高质量的视频指令微调数据。与图像数据相比,高质量的视频源更难找,且现有视频数据集存在两大问题:

1.内容静态: 很多视频内容变化不大,与静态图像能提供的信息差异不大,缺乏对模型时间推理能力的锻炼。

2.标注稀疏: 现有方法(如ShareGPT4Video)在为视频生成描述时,帧采样率极低(例如30秒视频只看2帧),导致生成的描述非常概括,无法捕捉细节动作和连续情节,进而导致模型在回答细节问题时产生“幻觉”。

innovation

本文的核心贡献是通过一个精心设计的数据生成管线,创造了一个高质量、大规模的合成视频指令微调数据集,以此来解决上述数据瓶颈问题。

1.高质量合成数据集 (LLaVA-Video-178K): 这是本文最核心的创新。研究者们构建了一个包含17.8万个视频和130万条指令样本的数据集。其高质量体现在:

动态视频源: 从10个主流视频数据集中精心筛选出具有显著动态变化、情节完整的未剪辑视频。

密集帧采样与循环生成: 提出了一个三层级的、循环式的视频描述生成管线。它以1 FPS的密集采样率处理视频,并使用GPT-4o生成描述。在生成后续描述时,会把之前的描述作为历史上下文,从而保证了对长视频情节的连贯理解。

任务多样性: 基于生成的详细描述,进一步使用GPT-4o生成了16种不同类型的开放式问答和多项选择题,覆盖了从基础感知到复杂推理的多种能力。

2.高效的视频表示方法 (LLaVA-Video slowFast): 针对密集采样带来的大量视频帧和显存占用的问题,引入了SlowFast思想。该方法为不同的帧分配不同数量的视觉token,一些关键帧(slow path)保留更多细节,而其他帧(fast path)则高度压缩,从而在有限的显存预算内处理多达3倍的视频帧。

2. 方法 Method

本文的方法论核心在于数据生成,而非模型架构的创新。

总体 Pipeline:

整个流程可以概括为:精选视频 -> 合成高质量指令数据 -> 用新数据微调现有LMM

输入: 从10个大型视频数据集中筛选出的动态、未剪辑的视频。

输出: 一个经过微调的、具有强大视频理解能力的LLaVA-Video模型。

数据生成 Pipeline (LLaVA-Video-178K):

1.视频源选择与过滤:

从HD-VILA-100M, ActivityNet等10个源头构建视频池。

使用场景检测工具(PySceneDetect)等方法,筛选出场景变化多、内容动态的视频。

2.三层级循环式详细描述生成:

Level-1 (每10秒): 对当前10秒的视频片段生成描述,输入不仅包括当前帧,还包括最近的Level-1和Level-2描述作为历史上下文。

Level-2 (每30秒): 对过去30秒的内容(即3个Level-1描述)进行总结,形成一个更概括的段落。

Level-3 (视频结束时): 对整个视频进行最终的全面总结。

3.多样化问答对生成:

基于上述生成的详细描述,定义了16种问题类型(如时序、因果、计数、细节描述等)。

为每种类型设计Prompt,让GPT-4o根据视频描述生成相应的开放式问答和多选题。

4.数据过滤: 移除重复的问题和无意义的回答(如“视频未提供信息”)。

模型训练与表示:

1.模型架构: 沿用LLaVA-OneVision的架构,即SigLIP视觉编码器 + Qwen2大语言模型。

2.训练策略: 从一个强大的预训练单图像模型(LLaVA-OneVision SI)的checkpoint开始,用LLaVA-Video-178K及其他一些公开视频QA数据集进行联合微调。

3.视频表示 (LLaVA-Video slowFast):

将视频帧分为“慢帧组”(如每隔s帧选一帧)和“快帧组”(其余帧)。

慢帧组使用较小的池化率(如p x p),保留更多的视觉token。

快帧组使用较大的池化率(如2p x 2p),保留较少的视觉token。

通过这种方式,在总token数量可控的情况下,显著增加了模型能处理的总帧数。

3. 实验 Experimental Results

数据集:

训练: LLaVA-Video-178K (核心贡献), LLaVA-Hound-255K, ActivityNet-QA, NEXT-QA, PerceptionTest, LLaVA-OneVision image data。

评测: 在11个主流视频理解基准上进行评测,包括ActivityNet-QA, MLVU, LongVideoBench, EgoSchema, PerceptionTest, VideoMME等。

实验结论:

1.SOTA性能: LLaVA-Video模型(特别是72B版本)在11个基准中的绝大多数上都取得了开源模型的最佳性能,甚至在多个指标上与顶级的闭源模型Gemini-1.5-Pro相当或更优。这强力证明了高质量合成数据的有效性。

2.数据集消融实验 (Table 3): 实验清晰地显示,在基线模型上仅仅加入LLaVA-Video-178K数据集,就能在各项评测(尤其是需要时间理解的in-domain任务)上带来巨大的性能提升(例如在NExT-QA上提升了31.9%),验证了该数据集是性能提升的关键。

3.数据质量对比实验 (Table 4): 通过控制问答对数量,证明了用LLaVA-Video-178K训练的模型显著优于用LLaVA-Hound和ShareGPT4Video训练的模型。这直接说明了本文数据集因其视频的动态性标注的密集性而在“质量”上胜出。

4.帧数重要性实验 (Table 8): 实验推翻了以往研究中“超过16帧性能就饱和”的结论。结果表明,对于动态视频和细节标注,随着训练帧数从32帧增加到110帧,模型性能持续稳定提升。这证明了密集采样对于训练强大的视频模型至关重要。

4. 总结 Conclusion

       本文的核心观点是高质量的、专为视频动态特性设计的数据是解锁强大视频LMM能力的关键。通过一个创新的、基于密集采样的合成数据管线,可以显著提升模型的视频理解能力,使其在开源领域达到与顶级闭源模型相媲美的水平。同时,研究也证明了对于复杂的视频任务,输入更多的帧数是持续提升性能的有效途径。

http://www.dtcms.com/a/453034.html

相关文章:

  • 精品课程网站建设意义北京小程序网站制作
  • Mean Normalization|均值归一化
  • 可以做网站素材的服装手机安装wordpress
  • StarRocks 是如何进行并行计算
  • 私域整体结构的顶层设计:基于“开源AI智能名片链动2+1模式S2B2C商城小程序”的体系重构
  • 基于SpringBoot和Vue的超市管理系统
  • wordpress系统安装教程上海网站排名优化费用
  • 【线程池】——实用场景
  • ip address dhcp-alloc 概念及题目
  • 深入解析:JavaScript中typeof与instanceof的原理及区别
  • C++ 位运算 高频面试考点 力扣137. 只出现一次的数字 II 题解 每日一题
  • 商城网站开发与设计郑州seo外包阿亮
  • 自建本地DNS过滤系统:实现局域网广告和垃圾网站屏蔽
  • 《投资-90》价值投资者的认知升级与交易规则重构 - 第三层:DCF算的未来多少年的现金总和?
  • 网站开发的套路龙腾盛世网站建设
  • .NET周刊【9月第3期 2025-09-21】
  • 建站模板哪里好关于音乐的个人网站
  • 力扣第470场周赛
  • leetcode滑动窗口(C++)
  • 企业网站建设代理公司intitle 网站建设
  • 多模卫星导航定位与应用-原理与实践(RTKLib)6
  • PSP用PS1(PSX)中文游戏合集
  • 吴恩达机器学习课程(PyTorch适配)学习笔记:1.3 特征工程与模型优化
  • golang面经——GC模块
  • 微信小程序中的双线程模型及数据传输优化
  • 网站建设最流行语言电商网站设计岗位主要是
  • 《投资-77》价格投机者如何重构认知与交易准则 - 现成的常见工具
  • 专业的手机网站建设公司排名搜狐快站怎么做网站
  • 测试Meta开源的 OpenZL 无损压缩框架
  • vue3 两份json数据对比不同的页面给于颜色标识