当前位置: 首页 > news >正文

Video-XL-2论文阅读

1.摘要

background

现有的mllm理解视频的方法从根本上与计算FLOP相对于输入令牌总数的二次增长作斗争。因此,对于越来越长的视频输入,这些模型仍然面临巨大的资源负担,并且经常导致关键信息丢失。

innovation

      1. 基于块的预填充:我们通过将其分成相等的长度块。然后,我们在每个块内计算全部注意力,同时在块之间应用稀疏注意力。这种方法大大减少了整体计算量,在预填充大量令牌序列期间的存储器开销。

       2. 我们的双层KV解码策略继续以块的形式管理KV缓存。在预填充期间生成的原始KV被指定为密集KV。然后我们对每个块的密集KV应用下采样操作以获得稀疏KV。这个过程确保原始视频输入的每个块对应于一个双层KV。层次KV表示(密集和稀疏)。在解码过程中,我们根据每个视频块与特定文本查询的相关性,选择性地重新加载每个视频块的密集或稀疏KV。这种方法进一步优化了内存使用,并增强了细粒度信息的捕获。

2. 方法 Method

       视觉输入处理

              最大帧数采样

              预先添加了显式和隐式的时间戳标记

              每个图像重复四次,以创建静态的类似视频的序列

       训练策略:

             

       基于块的预填充:

只关注当前块的内注意力和一个历史token。

       双层KV解码

              原本的dense KV被划分成块以及pooling过后得到稀疏KV,query进来相似度搞得用dense KV,相似度低的用sparse KV。

3. 实验 Experimental Results

实验数据集 (Experimental Datasets)模型在多个流行的长视频理解基准上进行评估,包括:

MLVU [49] (多选和生成任务)

Video-MME [50] (涵盖不同类型和长度的视频)

LongVideoBench [51] (需精确检索和推理的复杂多模态信息)

LVBench [52] (超长视频理解)

VideoEval-Pro [53] (逼真、开放式短答案问题)

Charades-STA [54] 和 V-STaR [55] (时序定位,评估时间感知能力)

主要结果 (Main Results)

Video-XL-2在MLVU开发集和测试集上表现优于主流开源方法,甚至超过了GPT-40等闭源模型。

在VideoMME、LongVideoBench和LVBench等长视频理解基准上达到SOTA性能。

在Charades-STA和V-STaR等时序定位基准上展现了强大的时序定位能力。

在所有评估模型中,Video-XL-2的FLOPs最低,实现了效率与性能的最佳平衡。

目的: 证明Video-XL-2在长视频理解和时序定位任务上的领先性能综合能力

效率分析 (Efficiency Analysis)

分块预填充: 将平均FLOPs降低到原始的48.8%,同时性能下降极小(<0.5%)。

双层KV解码: 将推理阶段的KV缓存使用率降低了38.8%,性能下降同样极小。

预填充时间: 随着输入帧数的增加几乎呈线性增长(图4a),表明了其在超长视频处理上的高度可扩展性

内存使用: 在单张80G A100 GPU上可处理高达10,000帧,24GB GPU也可处理数千帧(图4b),展示了卓越的内存效率

目的: 量化并直观展示分块预填充和双层KV解码策略带来的显著效率提升,证明Video-XL-2是长视频理解的实用解决方案。

超长视频场景 ("大海捞针"评估) (Extra-long Video Scenario & Needle in Haystack Evaluation)

Video-XL-2能够处理高达10,000帧的视频并保持强劲性能,而之前的Video-XL模型只能处理2048帧(图5)。

目的: 证明Video-XL-2在处理极其冗长的视频输入时,能同时保持内存效率和捕获关键细节的能力,有效解决了“大海捞针”这一严峻挑战。

4. 总结 Conclusion

       Video-XL-2是一个轻量级的视觉语言模型,通过其创新的分块预填充双层KV解码技术,在长视频理解和时序定位方面达到了SOTA性能,并展现了卓越的推理效率。它为解决长视频内容处理和理解的挑战提供了一个高度实用且强大的解决方案。

http://www.dtcms.com/a/399902.html

相关文章:

  • 在网站建设工作会议上讲话网站安全管理制度
  • JAVA第一阶段结束喽后天更新第二阶段至于明天当然是练习时间回顾一下之前学的太良心了
  • 专业门户网站建设用流媒体做的电台网站
  • python(74) 调用dll文件
  • 国家关于网站信息建设管理文件郴州市人口
  • 温州市城市建设档案馆网站公司宣传册排版
  • redis的set集合的编码方式以及应用场景
  • 【MySQL初阶】03-常见的数据类型
  • CPU调用频率偏高 原因调查
  • Nest 中的数据库集成、JWT身份认证与任务调度全解析
  • 中小型企业网站建设与管理设计制作软件
  • 常德网站建设套餐报价怎么制作公司网页教程
  • 音频基础知识
  • 如何在网上建立自己的网站自助建站信息网
  • 网站域名找回密码 用户名景区网站的建设公司
  • HTML应用指南:利用GET请求获取全国奥迪授权经销商门店位置信息
  • golang基础语法(三)常量、指针、别名、关键字、运算符、字符串类型转换
  • 普定县建设局网站河北seo平台
  • dify-随笔
  • 免费开店的平台有哪些标题优化方法
  • seo顾问服务公司站长怎么做软文网站
  • 【JNA】JAVA使用JNA调用C++ dll文件(3)编译Linux版本.so文件
  • MyBatis 操作数据库(⼊⻔)
  • [baka编程]初入C++,如何理解新概念——类和对象
  • 竞价网站做推广一款app是如何制作出来的
  • 北京建设银行网站广东官网网站建设平台
  • 淘宝客怎么在网站做推广网站每年续费费用
  • Pyside6 + QML - 多线程01 - QThread 基础(子线程执行耗时任务)
  • 农产品应该建设哪个网站屏幕分辨率 网站开发
  • 摄影作品展示网站flash全站源码山东住建部和城乡建设官网