当前位置: 首页 > news >正文

【AI论文】VF-Eval:评估多模态大型语言模型(MLLM)在生成人工智能生成内容(AIGC)视频反馈方面的能力

摘要:多模态大型语言模型(MLLMs)最近在视频问答领域得到了广泛研究。然而,现有的大多数评估都侧重于自然视频,而忽视了合成视频,例如人工智能生成的内容(AIGC)。与此同时,一些视频生成领域的研究工作依赖MLLMs来评估生成视频的质量,但MLLMs在解读AIGC视频方面的能力在很大程度上仍未得到充分探索。为了解决这一问题,我们提出了一个新的基准测试——VF-Eval,该基准引入了四个任务——连贯性验证、错误识别、错误类型检测和推理评估,以全面评估MLLMs在AIGC视频方面的能力。我们在VF-Eval上对13个前沿的MLLMs进行了评估,发现即使是表现最佳的模型GPT-4.1,也难以在所有任务上持续取得良好表现。这凸显了我们基准测试的挑战性。此外,为了探究VF-Eval在改进视频生成方面的实际应用,我们进行了一项名为RePrompt的实验,实验表明,使MLLMs更贴近人类反馈进行对齐,可以有利于视频生成。Huggingface链接:Paper page,论文链接:2505.23693

一、研究背景和目的

研究背景

随着人工智能技术的飞速发展,多模态大型语言模型(Multimodal Large Language Models, MLLMs)在视频理解领域的应用日益广泛。这些模型能够处理并整合来自视觉和文本域的信息,为视频问答、视频内容分析等任务提供了强大的支持。然而,现有的MLLMs评估主要集中于自然视频,而对合成视频,特别是人工智能生成内容(AI-Generated Content, AIGC)视频的评估则相对匮乏。AIGC视频,如通过文本到视频(Text-to-Video, T2V)模型生成的视频,具有独特的纹理、动态光照效果和算法生成的角色等特征,这些特征与传统视频内容存在显著差异,给MLLMs的准确解读带来了新的挑战。

此外,尽管一些视频生成工作已经开始利用MLLMs来评估生成视频的质量,但MLLMs在解读AIGC视频方面的能力尚未得到充分探索。传统的视频质量评估方法,如基于计算机视觉的技术,虽然能够提供定量评分,但往往难以捕捉到与人类偏好不一致或需要改进的细微之处。因此,开发一种能够有效评估MLLMs在AIGC视频上生成反馈能力的基准测试显得尤为重要。

研究目的

本研究旨在提出一个新的基准测试——VF-Eval,以全面评估MLLMs在生成AIGC视频反馈方面的能力。具体而言,我们希望通过以下四个任务来评估MLLMs的性能:

  1. 连贯性验证(Coherence Validation):检测AIGC视频与其生成提示之间的不一致性,并生成更合适的视频生成提示。
  2. 错误识别(Error Awareness):在包含自然视频和AIGC视频的集合中识别出AIGC视频中的错误。
  3. 错误类型检测(Error Type Detection):识别AIGC视频中可能存在的错误类型。
  4. 推理评估(Reasoning Evaluation):展示MLLMs在AIGC视频上的细粒度推理能力,包括空间和时间推理、动作和对象推理、计数问题和信息摘要等。

通过VF-Eval基准测试,我们希望能够揭示MLLMs在处理AIGC视频时的局限性,并为未来的模型改进提供指导。

二、研究方法

1. 数据集构建

为了构建VF-Eval数据集,我们首先收集了大量由T2V模型生成的AIGC视频,这些视频涵盖了各种日常场景,确保了数据集的多样性和广泛性。我们使用了四种专有模型(Pika、Kling、Pixeldance、Gen-3)和一种开源模型(T2V-turbo-v2)来生成视频,并从现有数据集中收集了额外的AIGC视频,如Lavie和OpenSora。

在数据集构建过程中,我们设计了三种类型的问题来评估MLLMs的性能:

  • 是非题(Yes-Or-No Questions):主要用于错误识别任务,要求模型判断视频中是否存在错误。
  • 选择题(Multiple-choice Questions):用于错误类型检测任务,要求模型从多个选项中选择出视频中存在的错误类型。
  • 开放题(Open-Ended Questions):用于连贯性验证和推理评估任务,要求模型对视频与提示之间的连贯性进行评估,并生成改进后的提示,或对视频进行细粒度的推理分析。

2. 评估指标

对于每个任务,我们定义了相应的评估指标:

  • 连贯性验证:使用LLM(如GPT-4.1-mini)对模型生成的答案与人类提供的正确答案进行比较,计算得分。
  • 错误识别:计算模型正确识别出AIGC视频中错误的比例。
  • 错误类型检测:同样计算模型正确选择出错误类型的比例。
  • 推理评估:使用LLM对模型在开放题上的回答进行评分,评估其推理能力。

3. 实验设置

我们在VF-Eval上评估了13个前沿的MLLMs,包括7个开源模型系列(如InternVL3、LLava-NeXT等)和2个专有模型系列(如GPT-4.1、GPT-4.1-mini等)。对于不支持视频输入的模型,我们根据其上下文窗口的最大图像数量提供了视觉输入。在评估过程中,我们使用了思维链(Chain-of-Thought, CoT)技术来引导模型生成详细的回答。

三、研究结果

1. 整体性能

实验结果表明,即使是表现最佳的模型GPT-4.1,在VF-Eval的所有任务上也难以持续取得良好表现。这凸显了我们基准测试的挑战性。具体而言,MLLMs在连贯性验证和推理评估任务上的表现较差,这表明它们在理解AIGC视频的细微差别和进行复杂推理方面存在局限性。

2. 任务特定性能

  • 连贯性验证:MLLMs能够大致识别出视频与提示之间的不一致性,但往往难以生成更好的提示来改进视频生成。它们提供的提示通常是对原始提示的简单扩展,缺乏创新性。
  • 错误识别:在错误识别任务上,MLLMs在“质量”方面的表现优于“常识和物理”方面。这可能是因为MLLMs缺乏视频质量评估的知识,难以检测到“常识和物理”方面的细微违规。
  • 错误类型检测:MLLMs在该任务上的表现低于预期,尤其是在识别道德违规方面。这表明MLLMs在有效利用视觉输入和考虑视频中描绘的道德方面存在不足。
  • 推理评估:在推理评估任务上,MLLMs在涉及AIGC视频的推理任务上往往表现不佳。由于AIGC视频中的模糊性、突然出现和消失等问题,MLLMs难以捕捉所有细节,并且视频中的异常结构和突然变化可能与它们的常识知识相矛盾。

3. 人类反馈对比

通过RePrompt实验,我们发现将MLLMs的反馈与人类偏好更紧密地对齐可以潜在地提高AI生成内容的质量和连贯性。具体而言,使用人类修订后的提示重新生成的视频在主体一致性、背景一致性、审美质量和图像质量等方面均优于原始视频。

四、研究局限

1. 模型范围有限

本研究仅考虑了文本到视频模型生成的AIGC视频,而未考虑从图像生成视频可能产生的其他类型的错误。未来的研究可以扩展到更广泛的视频生成模型和数据集。

2. RePrompt管道设计简单

RePrompt管道的设计相对简单,仅融入了人类的文本反馈,并未包括错误案例的具体位置信息,这限制了反馈的粒度。未来的研究可以探索更复杂的反馈机制,以提高视频生成的质量。

3. 跨模态视频未包含

我们的数据集未包含跨模态视频,而一些视频生成模型也提供音频信息。忽略多模态交互可能产生的更复杂场景是一个局限性。未来的研究可以考虑将音频信息纳入评估范围。

五、未来研究方向

1. 扩展模型范围

未来的研究可以扩展到更广泛的视频生成模型和数据集,包括从图像生成视频的模型和跨模态视频生成模型。这将有助于更全面地评估MLLMs在AIGC视频上的性能。

2. 改进反馈机制

探索更复杂的反馈机制,如结合计算机视觉技术和上下文学习,以提高反馈的精确度和粒度。例如,可以使用目标检测技术来定位视频中的错误区域,并提供更具体的反馈。

3. 强化多模态融合

考虑到跨模态视频的重要性,未来的研究可以强化MLLMs在多模态融合方面的能力。通过整合视觉、文本和音频信息,MLLMs可以更全面地理解视频内容,并生成更准确的反馈。

4. 提升推理能力

针对MLLMs在推理评估任务上的局限性,未来的研究可以致力于提升模型的推理能力。通过引入更先进的推理算法和训练策略,MLLMs可以更好地捕捉AIGC视频中的细微差别,并进行复杂的推理分析。

5. 探索实际应用

除了评估MLLMs的性能外,未来的研究还可以探索VF-Eval基准测试在实际应用中的价值。例如,可以将VF-Eval应用于视频生成模型的训练过程中,作为损失函数的一部分来指导模型的优化方向。此外,还可以研究如何将VF-Eval与其他视频质量评估方法相结合,以提供更全面的视频质量评估解决方案。

综上所述,VF-Eval基准测试为评估MLLMs在生成AIGC视频反馈方面的能力提供了一个有效的工具。通过未来的研究和改进,我们有望进一步提升MLLMs在视频理解领域的性能,并推动AI生成内容质量的不断提升。

相关文章:

  • 【TMS570LC4357】之相关驱动开发学习记录2
  • C# Onnx 动漫人物人脸检测
  • 【设计模式-3.7】结构型——组合模式
  • 当 AI 超越人类:从技术突破到文明拐点的 2025-2030 年全景展望
  • 奥威BI+AI数据分析:企业数智化转型的加速器
  • Vue 渲染三剑客:createRenderer、h 和 render 详解
  • 工厂方法模式深度解析:从原理到应用实战
  • 使用ArcPy生成地图系列
  • win11中使用grep
  • 国产高性能pSRAM选型指南:CSS6404LS-LI 64Mb QSPI伪静态存储器
  • 【Visual Studio 2022】卸载安装,ASP.NET
  • VS下C++及C#项目打包发布方法
  • Cursor + Claude 4:微信小程序流量主变现开发实战案例
  • C++ 中的依赖注入(Dependency Injection)
  • 【论文阅读】Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting
  • 菲尔斯特非接触测温技术的核心应用与选型指南
  • 网络安全问题及对策研究
  • 5分钟申请edu邮箱【方案本周有效】
  • Linux 与 Windows:哪个操作系统适合你?
  • 用 Vue 做一个轻量离线的“待办清单 + 情绪打卡”小工具
  • 任县网站制作/长沙seo网站排名
  • 厚街镇仿做网站/长沙优化网站推广
  • 网站开发工具 比较/seo站内优化和站外优化
  • 网站图片怎么做才有吸引力/地推放单平台
  • 国内简约网站设计欣赏/教育培训网站
  • 破解php网站后台账号密码/最成功的网络营销案例