当前位置: 首页 > news >正文

【论文精读】AIGCBench:AI 图像生成视频(I2V)的全面评估基准

标题:AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI

作者:Fanda Fan, Chunjie Luo, Wanling Gao, Jianfeng Zhan

单位:a. Research Center for Advanced Computer Systems, State Key Lab of Processors, Institute of Computing Technology, Chinese Academy of Sciences, China;b. University of Chinese Academy of Sciences, China

发表:arXiv:2401.01651v3 [cs.CV] 23 Jan 2024

论文链接:https://arxiv.org/pdf/2401.01651

项目链接:https://www.benchcouncil.org/AIGCBench

代码链接:https://github.com/BenchCouncil/AIGCBench

关键词:图生视频评测基准(Image-to-Video Evaluation Benchmark)、视频生成(Video Generation)、图像到视频(Image-to-Video(I2V))、多模态人工智能(Multimodal AI


在 AI 生成内容(AIGC)领域,视频生成技术正以惊人速度演进,其中图像生成视频(I2V)因能精准控制生成内容,在影视、电商广告、微动画等场景极具潜力。然而,现有 I2V 评估基准存在数据集单一、评估指标不统一等问题,严重阻碍了算法的公平对比与技术进步。为此,来自中国科学院计算技术研究所与中国科学院大学的团队提出了AIGCBench—— 一个全面、可扩展的视频生成评估基准,尤其聚焦 I2V 任务。

一、研究背景:为何需要 AIGCBench?

在深入 AIGCBench 设计之前,我们需先明确当前 I2V 领域的 “痛点”—— 现有评估体系的局限性,这也是 AIGCBench 诞生的核心动因。

1.1 AIGC 视频生成的发展现状

AIGC 视频生成主要包含三大主流任务:

  • 文本生成视频(T2V):仅通过文本提示生成视频,但难以精准描述用户所需的具体场景;
  • 图像生成视频(I2V):基于静态输入图像(通常搭配文本提示)生成动态视频,能更好地定义视频内容,是当前研究热点;
  • 视频生成视频(V2V):基于已有视频生成新视频,或结合深度、姿态、轨迹等额外信息优化生成效果。

其中,T2V 的评估基准(如 FETV、EvalCrafter、VBench)已较为成熟,但 I2V 的评估却长期滞后 —— 这正是 AIGCBench 要解决的核心问题。

1.2 现有 I2V 基准的两大核心缺陷

论文通过调研指出,现有 I2V 评估基准存在两个致命问题,导致无法公平、全面地评估算法性能:

  1. 数据集缺乏多样性与开放性:多数基准(如 LFDM Eval、CATER-GEN)仅针对特定领域(如面部表情、3D 物体运动)设计,无法覆盖用户实际使用的 “开放域场景”(如 “蓝色巨龙在时代广场玩滑板”);即使是开放域基准(如 VideoCrafter、I2VGen-XL),也仅依赖真实世界的图像 - 文本对,缺乏人工生成的多样化样本。

  2. 评估指标缺乏统一共识:部分基准(如 Seer、SVD)仅使用依赖参考视频的指标,部分(如 AnimateBench)仅用无参考视频的指标;且多数基准仅覆盖 “视觉对比”,未系统评估 “控制 - 视频对齐”“时间一致性” 等关键维度,无法全面反映算法优劣。

1.3 AIGCBench 的核心目标

针对上述问题,AIGCBench 提出三大核心目标:

  • 提供开放域、多样化的评估数据集:融合真实世界数据与人工生成数据,覆盖不同主题、行为、背景与艺术风格;
  • 建立多维度、统一的评估指标体系:涵盖控制 - 视频对齐、运动效果、时间一致性、视频质量四大维度,同时支持 “有参考视频” 与 “无参考视频” 评估;
  • 实现算法的公平对比:在同等条件下评估主流 I2V 算法,明确各算法的优势与短板,为领域发展提供方向。

二、AIGCBench 的整体框架

AIGCBench 的框架由三大核心模块构成:评估数据集待评估的视频生成模型多维度评估指标。其整体结构如图 1 所示,各模块间相互配合,实现对 I2V 算法的全面评估。

注:图中展示了 AIGCBench 的三大模块:评估数据集(视频 - 文本对、图像 - 文本对)、待评估模型(如 Pika、SVD 等)、评估指标(四大维度共 11 项指标),同时通过人工验证确保评估标准的合理性。

三、核心模块 1:评估数据集的构建

AIGCBench 的数据集设计是其解决 “数据多样性” 问题的关键,采用 “真实世界数据 + 人工生成数据” 的混合策略,共包含3928 个样本(远超现有基准),具体分为两类:

3.1 真实世界数据集

团队从公开的大规模数据集中采样,确保数据的真实性与代表性:

  1. 视频 - 文本对(Video-Text Pairs)来源:WebVid-10M 数据集(包含约 1000 万条视频 - 文本对,用于视频理解任务);采样策略:从验证集中按子类型采样 1000 条视频 - 文本对,用于 “有参考视频” 的评估;作用:提供真实场景下的视频参考,用于计算 “生成视频与参考视频的相似度” 等指标。

  2. 图像 - 文本对(Image-Text Pairs)来源:LAION-5B 数据集的子集 LAION-Aesthetics(包含约 585 亿条图像 - 文本对,筛选出视觉质量较高的样本);采样策略:随机采样 925 条图像 - 文本对,用于 “无参考视频” 的评估;作用:模拟用户输入的静态图像场景,评估生成视频与输入图像、文本的对齐程度。

3.2 人工生成的图像 - 文本对

为解决 “真实数据无法覆盖特殊场景” 的问题,团队设计了一套T2I(文本生成图像)生成流水线,生成 2003 条高质量图像 - 文本对,具体流程如下:

步骤 1:文本组合器(Text Combiner)生成基础提示

团队基于 “主题(Subject)、行为(Behavior)、背景(Background)、图像风格(Image Style)” 四大元类型,构建文本模板:{主题} {行为} {背景}, in the {图像风格} style

并从 Civit AI(T2I 社区)收集高频词汇,生成 3000 条基础文本提示,示例如下:

  • 主题:龙(a dragon)、骑士(a knight)、外星人(an alien);
  • 行为:骑自行车(riding a bike)、寻宝(searching for a treasure)、跳舞(dancing);
  • 背景:森林中(in a forest)、未来城市(in a futuristic city)、太空站(in a space station);
  • 风格:油画(oil painting)、水彩(water color)、梵高风格(Van Gogh)。
步骤 2:GPT-4 优化文本提示

基础提示可能存在 “描述单薄” 的问题,团队使用 GPT-4 对其进行优化,指令为 “make the content more vivid and rich”(让内容更生动丰富)。例如:

  • 优化前:“a dragon dancing in a forest, in oil painting style”;
  • 优化后:“A vibrant dragon performs a lively dance in a dense forest, capturing a bouncy rhythm in the oil painting style”。
步骤 3:Stable Diffusion 生成图像并筛选

使用当前主流的 T2I 模型 ——Stable Diffusion XL(xl-base 版本),按 16:9 比例(720×1280 分辨率,匹配 I2V 模型训练比例)生成图像;再通过 T2I-CompBench 的自动指标筛选出 2003 条高质量图像 - 文本对,确保样本质量。

生成流水线的效果如图 2 所示,可见其覆盖了 “外星人跳舞”“熊猫解谜”“机器人调制药剂” 等多样化场景,有效补充了真实数据的不足。

注:上侧为生成流水线(文本组合器→GPT-4 优化→Stable Diffusion 生成),下侧为 8 个生成示例,每个示例下方标注了文本组合器生成的原始文本。

3.3 数据集对比:AIGCBench vs 现有基准

为凸显 AIGCBench 数据集的优势,论文将其与现有 I2V 基准进行对比,结果如表 1 所示。可以看出:

  • AIGCBench 是唯一同时满足 “开放域”“包含视频 - 文本对 / 图像 - 文本对”“人工生成数据集”“大样本量(3928)” 的基准;
  • 现有基准要么局限于特定领域(如 LFDM Eval、CATER-GEN),要么缺乏人工生成数据(如 VideoCrafter、I2VGen-XL),要么样本量过小(如 AnimateBench 仅 105 个样本)。

四、核心模块 2:多维度评估指标体系

AIGCBench 的另一大创新是建立了四大维度、11 项指标的评估体系,同时支持 “有参考视频”(基于视频 - 文本对)和 “无参考视频”(基于图像 - 文本对)评估,确保全面性与灵活性。

4.1 指标设计原则

团队在设计指标时遵循两大原则:

  1. 覆盖核心需求:指标需对应用户对 I2V 的核心诉求 —— 生成视频需与输入控制(图像 + 文本)对齐、运动合理、帧间连贯、质量高;
  2. 兼顾两种场景:同时支持 “有参考视频”(如真实世界视频 - 文本对)和 “无参考视频”(如用户上传的图像),避免依赖单一数据类型。

4.2 四大维度与 11 项指标详解

维度 1:控制 - 视频对齐(Control-Video Alignment)

评估生成视频与 “输入控制信号”(图像 + 文本)的匹配程度,共 5 项指标:

  1. MSE (First):生成视频第一帧与输入图像的均方误差(越低越好)—— 衡量初始帧对输入图像的保真度;
  2. SSIM (First):生成视频第一帧与输入图像的结构相似性(越高越好)—— 从结构层面衡量图像保真度;
  3. Image-GenVideo CLIP:输入图像与生成视频所有帧的 CLIP 嵌入相似度均值(越高越好)—— 衡量全视频对输入图像的语义对齐;
  4. GenVideo-Text CLIP:输入文本与生成视频的 CLIP 嵌入相似度(越高越好)—— 衡量视频与文本的语义对齐(无参考视频场景);
  5. GenVideo-RefVideo CLIP (Keyframes):生成视频与参考视频的 4 个均匀采样关键帧的 CLIP 相似度均值(越高越好)—— 衡量视频与参考视频的语义对齐(有参考视频场景)。
维度 2:运动效果(Motion Effects)

评估生成视频中运动的 “强度” 与 “合理性”,共 2 项指标:

  1. Flow-Square-Mean:使用 RAFT 光流算法计算相邻帧的光流平方均值(越高表示运动越强,但需小于 10 以过滤异常值)—— 衡量运动强度;
  2. GenVideo-RefVideo CLIP (Corresponding frames):生成视频与参考视频对应帧的 CLIP 相似度均值(越高越好)—— 衡量运动的合理性(有参考视频场景)。
维度 3:时间一致性(Temporal Consistency)

评估生成视频帧间的连贯性,共 2 项指标(复用 1 项运动维度的指标,避免冗余):

  1. GenVideo CLIP (Adjacent frames):生成视频相邻帧的 CLIP 相似度均值(越高越好)—— 衡量帧间语义连贯性(无参考视频场景);
  2. GenVideo-RefVideo CLIP (Corresponding frames):复用运动维度的指标 —— 衡量生成视频与参考视频的帧间对应性(有参考视频场景)。
维度 4:视频质量(Video Quality)

评估生成视频的 “长度” 与 “整体质量”,共 2 项指标:

  1. Frame Count:生成视频的帧数(越高越好)—— 衡量算法生成长视频的能力;
  2. DOVER:无参考视频质量评估指标(越高越好)—— 从美学和技术层面综合评分(无参考视频场景);
  3. GenVideo-RefVideo SSIM:生成视频与参考视频对应帧的 SSIM 均值(越高越好)—— 衡量视频的空间结构质量(有参考视频场景)。

4.3 指标有效性验证

为确保指标与人类主观判断一致,团队通过 “用户研究” 验证:随机选取 5 个算法的各 30 个生成结果,由 42 名用户对 “图像保真度”“运动效果”“时间一致性”“视频质量” 四大维度投票,结果显示指标评分与用户投票高度吻合(后续实验会详细展示),证明指标体系的合理性。

五、实验设计与结果分析

论文选取了当前 I2V 领域的 5 个主流算法进行评估,涵盖 “开源项目” 与 “闭源项目”,确保结果具有代表性。

5.1 待评估模型与参数设置

开源模型(3 个)
  1. VideoCrafter [4]:开源视频生成工具包,支持 I2V;参数:引导尺度(guidance scale)=12,DDIM 步数 = 25,分辨率按比例调整为统一尺寸;
  2. I2VGen-XL [48]:阿里通义实验室开源的 I2V 模型;参数:引导尺度 = 9,FP16 精度推理;
  3. Stable Video Diffusion (SVD) [2]:基于 Stable Diffusion 扩展的 I2V 模型;参数:25 帧版本,暂不支持文本输入(故不计算文本相关指标)。
闭源模型(2 个)
  1. Pika [28]:工业界代表性模型,支持多风格视频生成;参数:默认运动强度 = 1,引导尺度 = 12,手动测试 60 个案例(30 个来自 WebVid,30 个来自人工生成数据集);
  2. Gen2 [7]:多模态视频生成系统;参数:默认运动强度 = 5,不启用相机运动参数。

5.2 定量结果分析

论文对 5 个模型在 11 项指标上的表现进行量化评估,结果如表 2 所示(↑表示指标越高越好,↓表示越低越好)。通过分析可得出以下关键结论:

结论 1:闭源模型在 “控制 - 视频对齐” 上全面领先
  • 图像保真度(MSE/SSIM/Image-GenVideo CLIP):Pika(MSE=155.30,SSIM=0.800)和 Gen2(MSE=235.53,SSIM=0.803)表现最佳,远优于开源模型(如 VideoCrafter 的 MSE=3929.65,SSIM=0.300);
  • 文本对齐(GenVideo-Text CLIP):Pika(0.271)和 Gen2(0.270)略优于开源模型,但整体得分偏低,说明现有算法在 “文本细粒度控制” 上仍有不足。
结论 2:运动效果的 “强度” 与 “合理性” 需平衡
  • 运动强度(Flow-Square-Mean):SVD(2.52)最高(倾向于相机运动),Pika(0.281)最低(倾向于局部物体运动);
  • 运动合理性(GenVideo-RefVideo CLIP):Pika(0.823)和 Gen2(0.818)最佳,说明其运动更符合真实场景;而 SVD 虽运动强度高,但合理性略低(0.796),因相机运动可能偏离参考视频。
结论 3:闭源模型在 “时间一致性” 和 “视频质量” 上优势显著
  • 时间一致性(GenVideo CLIP):Pika(0.996)和 Gen2(0.995)几乎无帧间断裂,远优于开源模型(如 I2VGen-XL=0.971);
  • 视频长度(Frame Count):Gen2(96 帧,约 4 秒)最长,Pika(72 帧,约 3 秒)次之,开源模型最短(VideoCrafter 仅 16 帧);
  • 整体质量(DOVER):Gen2(0.775)最高,Pika(0.715)次之,开源模型中 SVD(0.623)最佳。

5.3 定性结果分析

为更直观展示算法差异,论文选取 3 个典型场景(骑士在雪山马拉松、机器人在中世纪小镇解谜、美人鱼在古战场跳舞),对比了 5 个算法的生成效果,结果如图 3 所示。

注:从左到右依次为 VideoCrafter、I2VGen-XL、SVD、Pika、Gen2 的生成结果,每个场景对应一行。

定性结果进一步验证了定量结论:

  • 开源模型:VideoCrafter 和 I2VGen-XL 难以保留输入图像的空间结构(如 “骑士雪山” 场景中,输入图像的 “雪山背景” 被严重篡改);SVD 虽能保留结构,但运动以相机平移为主,缺乏物体自身运动;
  • 闭源模型:Pika 和 Gen2 不仅能精准保留输入图像的细节(如 “美人鱼古战场” 场景中,美人鱼的姿态、古战场的背景均与输入一致),且运动更自然(如骑士的跑步、机器人的解谜动作)。

5.4 用户研究结果

为验证指标与人类判断的一致性,论文统计 42 名用户对 5 个算法在四大维度的 “最佳投票比例”,结果如图 4 所示(雷达图)。

注:数值表示用户投票该算法为 “某维度最佳” 的比例,维度包括图像保真度、运动效果、时间一致性、视频质量。

用户研究结果与定量指标高度吻合:

  • Gen2 在 “图像保真度” 和 “视频质量” 上得票最高;
  • Pika 在 “运动效果” 和 “时间一致性” 上得票最高;
  • SVD 在开源模型中表现均衡,得票仅次于闭源模型;
  • VideoCrafter 和 I2VGen-XL 在所有维度得票最低。

这进一步证明 AIGCBench 的指标体系能够准确反映人类主观感受,具备有效性。

六、核心发现与领域挑战

通过 AIGCBench 的全面评估,团队总结出当前 I2V 领域的三大核心挑战,为后续研究指明方向:

6.1 缺乏细粒度控制能力

现有算法虽能匹配文本的 “粗语义”(如 “骑士跑步”),但无法捕捉 “细粒度描述”(如 “骑士穿着红色盔甲、在雪山上以每秒 5 米的速度跑步”)。原因在于:

  • 现有文本对齐依赖 CLIP 嵌入,仅能捕捉全局语义,无法区分细粒度差异;
  • 缺乏针对 “视频场景” 的细粒度文本 - 视频对齐模型。

建议:未来需设计专门用于视频的细粒度语义匹配模型,将文本拆解为 “物体属性、运动参数、环境细节” 等子模块,逐一对齐生成视频。

6.2 长视频生成能力不足

当前主流算法的最大生成长度仅为 96 帧(Gen2,按 24fps 计算约 4 秒),远无法满足影视、广告等场景对 “分钟级视频” 的需求。现有解决方案存在缺陷:

  • 多步推理(粗→细):先生成关键帧,再补全中间帧,但难以保证帧间一致性;
  • 多 GPU 单模型推理:虽能提升长度,但生成质量下降明显。

建议:需探索 “时间维度的稀疏建模”(如仅建模关键帧的时间依赖)或 “分层生成策略”(如先生成视频结构,再填充细节),在长度与质量间找到平衡。

6.3 推理速度过慢

现有算法生成 3 秒视频(约 72 帧)需在 V100 显卡上运行 1 分钟,无法满足实时应用需求。当前加速思路有两种:

  • ** latent 空间降维 **:如 SVD 将视频映射到低维 latent 空间(尺寸缩小 8 倍),但会损失部分细节;
  • 扩散模型加速:如采用 “蒸馏”“剪枝” 等技术,但可能导致生成质量下降。

建议:未来需结合 “latent 空间优化” 与 “扩散模型加速”,在速度与质量间 trade-off,例如设计更高效的 latent 表示,或采用 “非扩散模型”(如 Transformer)实现快速生成。

七、AIGCBench 的局限性与未来规划

7.1 现有局限性

  1. 样本量不足:因 I2V 模型推理慢、部分模型闭源,当前仅评估 3950 个案例,未来需扩大样本量;
  2. 细粒度评估缺失:无法自动判断 “物体运动方向与文本是否一致”(如 “水流从左到右” 是否与生成视频匹配),需依赖人工;
  3. 任务覆盖不全面:当前仅聚焦 I2V,未包含 T2V、V2V 等其他视频生成任务。

7.2 未来规划

  1. 扩展任务范围:将 T2V、V2V、深度 / 姿态引导的视频生成等任务纳入 AIGCBench,建立统一的视频生成评估框架;
  2. 提升细粒度评估能力:训练 “文本 - 视频细粒度对齐模型”,实现对 “运动方向、物体属性” 等细节的自动评估;
  3. 开源更多资源:扩大数据集规模,开放更多评估工具(如细粒度评估代码),推动领域标准化。

八、总结

AIGCBench 作为当前 I2V 领域最全面的评估基准,通过 “多样化数据集”“多维度指标体系”“公平的算法对比”,填补了现有评估体系的空白。其核心贡献可概括为三点:

  1. 数据集创新:融合真实世界与人工生成数据,覆盖开放域场景,样本量达 3928 个,远超现有基准;
  2. 指标体系创新:四大维度 11 项指标,同时支持有 / 无参考视频评估,且与人类判断高度一致;
  3. 领域洞察:通过评估明确现有算法的短板,指出 “细粒度控制、长视频生成、推理速度” 三大核心挑战,为后续研究提供方向。

AIGCBench 的开源(数据集与代码已发布于https://www.benchcouncil.org/AIGCBench)将推动 I2V 领域的标准化发展,助力更多高效、高质量的 I2V 算法诞生。对于研究者而言,AIGCBench 不仅是评估工具,更是洞察领域趋势的 “指南针”;对于工业界而言,AIGCBench 可作为算法选型的 “客观标准”,加速 I2V 技术的落地应用。

http://www.dtcms.com/a/519374.html

相关文章:

  • 电子病历语料库构建方法与架构项目全计划(2025扩展版)
  • 刷题网站开发19年做网站
  • 网站建设销售外贸企业网站功能要求
  • 设计神经网络的技巧
  • Java 核心知识点查漏补缺(二)
  • wpf之数据类型转换
  • SpringBoot-Web开发之拦截器
  • 计算机网络:网络基础
  • C++学习——类与对象详细知识点总结
  • C primer plus (第六版)第十一章 编程练习第14题
  • 逆变器之逆变原理
  • PLL说明,quartus和vivado两款软件的pll IP核使用说明
  • Redis全解析:性能、类型与淘汰策略
  • 行业的年龄焦虑本质是“价值重构危机“
  • 自己建的网站无法打开晋城网站制作公司
  • InstructBLIP:迈向通用视觉-语言模型的新里程碑
  • list的底层实现
  • MySQL一键升级脚本(5.7-8.0)
  • 销售网站建设工资多少绿色主色调网站
  • 应用层网络协议深度解析:设计、实战与安全
  • C++:类和对象_bite
  • SQL之键与约束
  • 【vTESTstudio开发教程】--- 如何添加测试用例List
  • SpringBoot-Web开发之内容协商
  • 实现一个JSON工具类自动处理JSON转String
  • 域名注册网站那个好企业服务官网
  • SpringBoot-数据访问之MyBatis与Redis
  • iOS 26 App 运行状况全面解析 多工具协同监控与调试实战指南
  • uts ios插件开发tips
  • 单页营销型网站全国城建中心官方网站