当前位置：首页 > news >正文

AKS论文阅读

news 2025/9/25 17:31:40

1.摘要

background

多模态大语言模型（MLLMs）在处理长视频时面临一个核心挑战：它们的上下文窗口（Context Capacity）有限，无法一次性处理视频中的所有帧。因此，现有的视频MLLMs通常需要对视频帧进行采样，例如均匀采样（Uniform Sampling）。这种简单的采样方式很可能会丢失包含关键信息的帧，从而导致模型对视频内容的理解错误，给出不正确的答案。

innovation

1.提出自适应关键帧采样算法 (Adaptive Keyframe Sampling, AKS): 作者提出了一个简单而有效的即插即用（plug-and-play）模块AKS，用于在将视频输入MLLM之前，智能地挑选出信息量最丰富的关键帧。

2.两大核心准则 (Relevance & Coverage): AKS将关键帧选择问题建模为一个优化问题，其核心是最大化两个准则：

相关性 (Relevance): 选出的关键帧需要与用户提出的问题（Prompt）高度相关。

覆盖度 (Coverage): 选出的关键帧集合需要能全面地覆盖整个视频时间轴上的重要信息，避免因为只关注局部高相关性片段而丢失全局信息。

2. 方法 Method

整体 Pipeline:AKS作为一个即插即用的预处理模块，被插入到常规的视频MLLM流程中。

输入: 一个长视频V和一个文本问题Q。

AKS模块处理:

首先，对视频进行初步采样（如1fps），得到一系列候选帧。

使用一个轻量的视觉语言模型（如CLIP或BLIP）计算每个候选帧Ft与问题Q之间的相关性分数r(Q, Ft)。

AKS算法根据所有帧的相关性分数，执行一个递归的“判断-分裂”（Judge-and-Split）策略，来决定最终选择哪些帧。

输出: AKS模块输出M个被选中的关键帧的索引。

后续流程: 这些被选中的关键帧被送入MLLM的视觉编码器，转换成Visual Tokens，再与问题文本一起输入LLM，最终生成答案。

各部分详解:AKS的核心是其自适应优化算法，它旨在平衡“相关性”和“覆盖度”。

相关性计算 r(Q, Ft):

输入: 问题Q的文本嵌入，和某一帧Ft的图像嵌入。

做法: 使用一个预训练好的、计算成本较低的图文匹配模型（如BLIP的ITM模块）来计算两者之间的相似度得分。得分越高，代表该帧与问题越相关。

输出: 一个标量分数。

覆盖度估计与自适应采样 (ADA算法):

输入: 所有候选帧的相关性分数序列，以及要采样的总帧数M。

做法: 采用一种分层、递归的优化方法。

初始化: 将整个视频时间轴 [0, T) 视为一个“桶”（bin）。

判断: 在当前的桶内，计算所有帧的平均分s_all和得分最高的M帧的平均分s_top。如果s_top远超s_all（超过一个阈值S_thr），说明这个桶内的信息非常集中，此时算法会直接选择分数最高的Top-M帧（偏向相关性）。

分裂: 否则，说明信息分布较散，算法会将当前的桶均分为两个子桶，并将采样名额M均分给这两个子桶（偏向覆盖度）。

递归: 对每个子桶重复“判断-分裂”的过程，直到达到最大递归深度或分配完所有采样名额。

输出: 最终被选中的M个关键帧的索引。

3. 实验 Experimental Results

实验数据集:

LongVideoBench: 一个用于长上下文、交错视频语言理解的基准。

VideoMME: 一个全面的多模态LLM视频分析评估基准。

主要实验结论:

与SOTA方法对比:

实验目的: 验证AKS能否提升现有视频MLLMs的性能。

结论: 将AKS应用于三个不同的基线模型（Qwen2-VL, LLaVA-OV, LLaVA-Video）后，在两个数据集上都取得了一致且显著的准确率提升。例如，LLaVA-Video-7B结合AKS后，性能甚至超过了一些使用更多帧的专有闭源模型（如GPT-4V）。

不同采样策略的诊断分析:

实验目的: 比较AKS (ADA) 与其他采样策略，如均匀采样(UNI)、只看相关性的顶峰采样(TOP)和只看覆盖度的分桶采样(BIN)的效果。

结论: AKS (ADA) 在两个数据集上的综合表现最好。这证明了它成功地结合了TOP策略（适用于问题答案集中在视频某一刻的场景）和BIN策略（适用于答案分布在视频多个时间点的场景）的优点。

消融实验:

实验目的: 探究不同组件对性能的影响，如候选帧的采样频率、计算相关性分数的视觉语言模型选择等。

结论:

即使将候选帧的采样频率从1fps降低到0.25fps，性能也只有轻微下降，证明AKS可以在保证效果的同时降低计算开销。

不同的VL模型（CLIP, BLIP）在不同数据集上各有优劣，这与数据集的问题类型和模型的预训练数据有关。

4. 总结 Conclusion

对于上下文窗口有限的MLLM来说，在处理长视频时，一个智能的视觉信息预过滤（pre-filtering）阶段至关重要。本文提出的AKS算法，通过同时考虑与用户问题的相关性和对视频内容的覆盖度，提供了一个非常有效的预过滤方案，能显著提升模型对长视频的理解能力。

查看全文

http://www.dtcms.com/a/404149.html

快捷的赣州网站建设网站开发的逻辑

【图论】【数据结构】图的深度优先与广度优先遍历、最短路径

制作网站作业wordpress设置关键字

网站建设 seo模块泉州企业网站维护定制

如何做音乐分享类网站个人网页制作模板田田田田田田田田

网站建设需求说明书怎么写做婚礼效果图的网站有哪些

温州免费建站私密浏览器视频

速通ACM省铜第十四天赋源码（Coloring Game）

淮安做网站seo海南省建设注册执业资格中心网站

阿里云 PAI 携手 NVIDIA 提供端到端物理 AI 解决方案

如何用织梦程序制作多个页面网站承接电商网站建设

location配置 rewrite配置

建设网站查证书哈尔滨网站建设教学

弧光之源网站建设永久免费国外vps无需信用卡

学校网站建河北省建设厅网站重新安装

南京高端网站设计网站建设公司网站建设公司

深圳seo网站oa系统app下载

此网站不支持下载视频怎么办网站主题编辑工具WordPress

网站的建设维护更换wordpress主题头部

网页模板网站网站建设师特点

网站建设的简洁性郑州市中标公示网

技术速递｜如何使用 Playwright MCP 和 GitHub Copilot 调试 Web 应用

网站引用优酷广州做网站制作公司

EPGF架构：Python开发的长效稳定之道

运营的网站wordpress导出文章word

用dw做的个人网站外贸公司业务流程

网站建设的基本流程包括文字转码unicode

网站开发思路怎么写域名ip

最新网站查询安康市建设规划局网站

讲一讲什么是重要性采样

相关文章：