当前位置：首页 > news >正文

【AI论文】VF-Eval：评估多模态大型语言模型（MLLM）在生成人工智能生成内容（AIGC）视频反馈方面的能力

news 2025/9/13 3:03:52

摘要：多模态大型语言模型（MLLMs）最近在视频问答领域得到了广泛研究。然而，现有的大多数评估都侧重于自然视频，而忽视了合成视频，例如人工智能生成的内容（AIGC）。与此同时，一些视频生成领域的研究工作依赖MLLMs来评估生成视频的质量，但MLLMs在解读AIGC视频方面的能力在很大程度上仍未得到充分探索。为了解决这一问题，我们提出了一个新的基准测试——VF-Eval，该基准引入了四个任务——连贯性验证、错误识别、错误类型检测和推理评估，以全面评估MLLMs在AIGC视频方面的能力。我们在VF-Eval上对13个前沿的MLLMs进行了评估，发现即使是表现最佳的模型GPT-4.1，也难以在所有任务上持续取得良好表现。这凸显了我们基准测试的挑战性。此外，为了探究VF-Eval在改进视频生成方面的实际应用，我们进行了一项名为RePrompt的实验，实验表明，使MLLMs更贴近人类反馈进行对齐，可以有利于视频生成。Huggingface链接：Paper page，论文链接：2505.23693

一、研究背景和目的

研究背景：

随着人工智能技术的飞速发展，多模态大型语言模型（Multimodal Large Language Models, MLLMs）在视频理解领域的应用日益广泛。这些模型能够处理并整合来自视觉和文本域的信息，为视频问答、视频内容分析等任务提供了强大的支持。然而，现有的MLLMs评估主要集中于自然视频，而对合成视频，特别是人工智能生成内容（AI-Generated Content, AIGC）视频的评估则相对匮乏。AIGC视频，如通过文本到视频（Text-to-Video, T2V）模型生成的视频，具有独特的纹理、动态光照效果和算法生成的角色等特征，这些特征与传统视频内容存在显著差异，给MLLMs的准确解读带来了新的挑战。

此外，尽管一些视频生成工作已经开始利用MLLMs来评估生成视频的质量，但MLLMs在解读AIGC视频方面的能力尚未得到充分探索。传统的视频质量评估方法，如基于计算机视觉的技术，虽然能够提供定量评分，但往往难以捕捉到与人类偏好不一致或需要改进的细微之处。因此，开发一种能够有效评估MLLMs在AIGC视频上生成反馈能力的基准测试显得尤为重要。

研究目的：

本研究旨在提出一个新的基准测试——VF-Eval，以全面评估MLLMs在生成AIGC视频反馈方面的能力。具体而言，我们希望通过以下四个任务来评估MLLMs的性能：

连贯性验证（Coherence Validation）：检测AIGC视频与其生成提示之间的不一致性，并生成更合适的视频生成提示。
错误识别（Error Awareness）：在包含自然视频和AIGC视频的集合中识别出AIGC视频中的错误。
错误类型检测（Error Type Detection）：识别AIGC视频中可能存在的错误类型。
推理评估（Reasoning Evaluation）：展示MLLMs在AIGC视频上的细粒度推理能力，包括空间和时间推理、动作和对象推理、计数问题和信息摘要等。

通过VF-Eval基准测试，我们希望能够揭示MLLMs在处理AIGC视频时的局限性，并为未来的模型改进提供指导。

二、研究方法

1. 数据集构建：

为了构建VF-Eval数据集，我们首先收集了大量由T2V模型生成的AIGC视频，这些视频涵盖了各种日常场景，确保了数据集的多样性和广泛性。我们使用了四种专有模型（Pika、Kling、Pixeldance、Gen-3）和一种开源模型（T2V-turbo-v2）来生成视频，并从现有数据集中收集了额外的AIGC视频，如Lavie和OpenSora。

在数据集构建过程中，我们设计了三种类型的问题来评估MLLMs的性能：

是非题（Yes-Or-No Questions）：主要用于错误识别任务，要求模型判断视频中是否存在错误。
选择题（Multiple-choice Questions）：用于错误类型检测任务，要求模型从多个选项中选择出视频中存在的错误类型。
开放题（Open-Ended Questions）：用于连贯性验证和推理评估任务，要求模型对视频与提示之间的连贯性进行评估，并生成改进后的提示，或对视频进行细粒度的推理分析。

2. 评估指标：

对于每个任务，我们定义了相应的评估指标：

连贯性验证：使用LLM（如GPT-4.1-mini）对模型生成的答案与人类提供的正确答案进行比较，计算得分。
错误识别：计算模型正确识别出AIGC视频中错误的比例。
错误类型检测：同样计算模型正确选择出错误类型的比例。
推理评估：使用LLM对模型在开放题上的回答进行评分，评估其推理能力。

3. 实验设置：

我们在VF-Eval上评估了13个前沿的MLLMs，包括7个开源模型系列（如InternVL3、LLava-NeXT等）和2个专有模型系列（如GPT-4.1、GPT-4.1-mini等）。对于不支持视频输入的模型，我们根据其上下文窗口的最大图像数量提供了视觉输入。在评估过程中，我们使用了思维链（Chain-of-Thought, CoT）技术来引导模型生成详细的回答。

三、研究结果

1. 整体性能：

实验结果表明，即使是表现最佳的模型GPT-4.1，在VF-Eval的所有任务上也难以持续取得良好表现。这凸显了我们基准测试的挑战性。具体而言，MLLMs在连贯性验证和推理评估任务上的表现较差，这表明它们在理解AIGC视频的细微差别和进行复杂推理方面存在局限性。

2. 任务特定性能：

连贯性验证：MLLMs能够大致识别出视频与提示之间的不一致性，但往往难以生成更好的提示来改进视频生成。它们提供的提示通常是对原始提示的简单扩展，缺乏创新性。
错误识别：在错误识别任务上，MLLMs在“质量”方面的表现优于“常识和物理”方面。这可能是因为MLLMs缺乏视频质量评估的知识，难以检测到“常识和物理”方面的细微违规。
错误类型检测：MLLMs在该任务上的表现低于预期，尤其是在识别道德违规方面。这表明MLLMs在有效利用视觉输入和考虑视频中描绘的道德方面存在不足。
推理评估：在推理评估任务上，MLLMs在涉及AIGC视频的推理任务上往往表现不佳。由于AIGC视频中的模糊性、突然出现和消失等问题，MLLMs难以捕捉所有细节，并且视频中的异常结构和突然变化可能与它们的常识知识相矛盾。

3. 人类反馈对比：

通过RePrompt实验，我们发现将MLLMs的反馈与人类偏好更紧密地对齐可以潜在地提高AI生成内容的质量和连贯性。具体而言，使用人类修订后的提示重新生成的视频在主体一致性、背景一致性、审美质量和图像质量等方面均优于原始视频。