当前位置：首页 > news >正文

【论文精读】AIGCBench：AI 图像生成视频（I2V）的全面评估基准

news 2025/10/24 7:07:59

标题：AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated by AI

作者：Fanda Fan, Chunjie Luo, Wanling Gao, Jianfeng Zhan

单位：a. Research Center for Advanced Computer Systems, State Key Lab of Processors, Institute of Computing Technology, Chinese Academy of Sciences, China；b. University of Chinese Academy of Sciences, China

发表：arXiv:2401.01651v3 [cs.CV] 23 Jan 2024

论文链接：https://arxiv.org/pdf/2401.01651

项目链接：https://www.benchcouncil.org/AIGCBench

代码链接：https://github.com/BenchCouncil/AIGCBench

关键词：图生视频评测基准（Image-to-Video Evaluation Benchmark）、视频生成（Video Generation）、图像到视频（Image-to-Video（I2V））、多模态人工智能（Multimodal AI）

在 AI 生成内容（AIGC）领域，视频生成技术正以惊人速度演进，其中图像生成视频（I2V）因能精准控制生成内容，在影视、电商广告、微动画等场景极具潜力。然而，现有 I2V 评估基准存在数据集单一、评估指标不统一等问题，严重阻碍了算法的公平对比与技术进步。为此，来自中国科学院计算技术研究所与中国科学院大学的团队提出了AIGCBench—— 一个全面、可扩展的视频生成评估基准，尤其聚焦 I2V 任务。

一、研究背景：为何需要 AIGCBench？

在深入 AIGCBench 设计之前，我们需先明确当前 I2V 领域的 “痛点”—— 现有评估体系的局限性，这也是 AIGCBench 诞生的核心动因。

1.1 AIGC 视频生成的发展现状

AIGC 视频生成主要包含三大主流任务：

文本生成视频（T2V）：仅通过文本提示生成视频，但难以精准描述用户所需的具体场景；
图像生成视频（I2V）：基于静态输入图像（通常搭配文本提示）生成动态视频，能更好地定义视频内容，是当前研究热点；
视频生成视频（V2V）：基于已有视频生成新视频，或结合深度、姿态、轨迹等额外信息优化生成效果。

其中，T2V 的评估基准（如 FETV、EvalCrafter、VBench）已较为成熟，但 I2V 的评估却长期滞后 —— 这正是 AIGCBench 要解决的核心问题。

1.2 现有 I2V 基准的两大核心缺陷

论文通过调研指出，现有 I2V 评估基准存在两个致命问题，导致无法公平、全面地评估算法性能：

数据集缺乏多样性与开放性：多数基准（如 LFDM Eval、CATER-GEN）仅针对特定领域（如面部表情、3D 物体运动）设计，无法覆盖用户实际使用的 “开放域场景”（如 “蓝色巨龙在时代广场玩滑板”）；即使是开放域基准（如 VideoCrafter、I2VGen-XL），也仅依赖真实世界的图像 - 文本对，缺乏人工生成的多样化样本。
评估指标缺乏统一共识：部分基准（如 Seer、SVD）仅使用依赖参考视频的指标，部分（如 AnimateBench）仅用无参考视频的指标；且多数基准仅覆盖 “视觉对比”，未系统评估 “控制 - 视频对齐”“时间一致性” 等关键维度，无法全面反映算法优劣。

1.3 AIGCBench 的核心目标

针对上述问题，AIGCBench 提出三大核心目标：

提供开放域、多样化的评估数据集：融合真实世界数据与人工生成数据，覆盖不同主题、行为、背景与艺术风格；
建立多维度、统一的评估指标体系：涵盖控制 - 视频对齐、运动效果、时间一致性、视频质量四大维度，同时支持 “有参考视频” 与 “无参考视频” 评估；
实现算法的公平对比：在同等条件下评估主流 I2V 算法，明确各算法的优势与短板，为领域发展提供方向。

二、AIGCBench 的整体框架

AIGCBench 的框架由三大核心模块构成：评估数据集、待评估的视频生成模型、多维度评估指标。其整体结构如图 1 所示，各模块间相互配合，实现对 I2V 算法的全面评估。

注：图中展示了 AIGCBench 的三大模块：评估数据集（视频 - 文本对、图像 - 文本对）、待评估模型（如 Pika、SVD 等）、评估指标（四大维度共 11 项指标），同时通过人工验证确保评估标准的合理性。

三、核心模块 1：评估数据集的构建

AIGCBench 的数据集设计是其解决 “数据多样性” 问题的关键，采用 “真实世界数据 + 人工生成数据” 的混合策略，共包含3928 个样本（远超现有基准），具体分为两类：

3.1 真实世界数据集

团队从公开的大规模数据集中采样，确保数据的真实性与代表性：

视频 - 文本对（Video-Text Pairs）来源：WebVid-10M 数据集（包含约 1000 万条视频 - 文本对，用于视频理解任务）；采样策略：从验证集中按子类型采样 1000 条视频 - 文本对，用于 “有参考视频” 的评估；作用：提供真实场景下的视频参考，用于计算 “生成视频与参考视频的相似度” 等指标。
图像 - 文本对（Image-Text Pairs）来源：LAION-5B 数据集的子集 LAION-Aesthetics（包含约 585 亿条图像 - 文本对，筛选出视觉质量较高的样本）；采样策略：随机采样 925 条图像 - 文本对，用于 “无参考视频” 的评估；作用：模拟用户输入的静态图像场景，评估生成视频与输入图像、文本的对齐程度。

3.2 人工生成的图像 - 文本对

为解决 “真实数据无法覆盖特殊场景” 的问题，团队设计了一套T2I（文本生成图像）生成流水线，生成 2003 条高质量图像 - 文本对，具体流程如下：

步骤 1：文本组合器（Text Combiner）生成基础提示

团队基于 “主题（Subject）、行为（Behavior）、背景（Background）、图像风格（Image Style）” 四大元类型，构建文本模板：{主题} {行为} {背景}, in the {图像风格} style

并从 Civit AI（T2I 社区）收集高频词汇，生成 3000 条基础文本提示，示例如下：

主题：龙（a dragon）、骑士（a knight）、外星人（an alien）；
行为：骑自行车（riding a bike）、寻宝（searching for a treasure）、跳舞（dancing）；
背景：森林中（in a forest）、未来城市（in a futuristic city）、太空站（in a space station）；
风格：油画（oil painting）、水彩（water color）、梵高风格（Van Gogh）。

步骤 2：GPT-4 优化文本提示

基础提示可能存在 “描述单薄” 的问题，团队使用 GPT-4 对其进行优化，指令为 “make the content more vivid and rich”（让内容更生动丰富）。例如：

优化前：“a dragon dancing in a forest, in oil painting style”；
优化后：“A vibrant dragon performs a lively dance in a dense forest, capturing a bouncy rhythm in the oil painting style”。

步骤 3：Stable Diffusion 生成图像并筛选

使用当前主流的 T2I 模型 ——Stable Diffusion XL（xl-base 版本），按 16:9 比例（720×1280 分辨率，匹配 I2V 模型训练比例）生成图像；再通过 T2I-CompBench 的自动指标筛选出 2003 条高质量图像 - 文本对，确保样本质量。

生成流水线的效果如图 2 所示，可见其覆盖了 “外星人跳舞”“熊猫解谜”“机器人调制药剂” 等多样化场景，有效补充了真实数据的不足。

注：上侧为生成流水线（文本组合器→GPT-4 优化→Stable Diffusion 生成），下侧为 8 个生成示例，每个示例下方标注了文本组合器生成的原始文本。

3.3 数据集对比：AIGCBench vs 现有基准

为凸显 AIGCBench 数据集的优势，论文将其与现有 I2V 基准进行对比，结果如表 1 所示。可以看出：

AIGCBench 是唯一同时满足 “开放域”“包含视频 - 文本对 / 图像 - 文本对”“人工生成数据集”“大样本量（3928）” 的基准；
现有基准要么局限于特定领域（如 LFDM Eval、CATER-GEN），要么缺乏人工生成数据（如 VideoCrafter、I2VGen-XL），要么样本量过小（如 AnimateBench 仅 105 个样本）。

四、核心模块 2：多维度评估指标体系

AIGCBench 的另一大创新是建立了四大维度、11 项指标的评估体系，同时支持 “有参考视频”（基于视频 - 文本对）和 “无参考视频”（基于图像 - 文本对）评估，确保全面性与灵活性。

4.1 指标设计原则

团队在设计指标时遵循两大原则：

覆盖核心需求：指标需对应用户对 I2V 的核心诉求 —— 生成视频需与输入控制（图像 + 文本）对齐、运动合理、帧间连贯、质量高；
兼顾两种场景：同时支持 “有参考视频”（如真实世界视频 - 文本对）和 “无参考视频”（如用户上传的图像），避免依赖单一数据类型。

4.2 四大维度与 11 项指标详解

维度 1：控制 - 视频对齐（Control-Video Alignment）

评估生成视频与 “输入控制信号”（图像 + 文本）的匹配程度，共 5 项指标：

MSE (First)：生成视频第一帧与输入图像的均方误差（越低越好）—— 衡量初始帧对输入图像的保真度；
SSIM (First)：生成视频第一帧与输入图像的结构相似性（越高越好）—— 从结构层面衡量图像保真度；
Image-GenVideo CLIP：输入图像与生成视频所有帧的 CLIP 嵌入相似度均值（越高越好）—— 衡量全视频对输入图像的语义对齐；
GenVideo-Text CLIP：输入文本与生成视频的 CLIP 嵌入相似度（越高越好）—— 衡量视频与文本的语义对齐（无参考视频场景）；
GenVideo-RefVideo CLIP (Keyframes)：生成视频与参考视频的 4 个均匀采样关键帧的 CLIP 相似度均值（越高越好）—— 衡量视频与参考视频的语义对齐（有参考视频场景）。

维度 2：运动效果（Motion Effects）

评估生成视频中运动的 “强度” 与 “合理性”，共 2 项指标：

Flow-Square-Mean：使用 RAFT 光流算法计算相邻帧的光流平方均值（越高表示运动越强，但需小于 10 以过滤异常值）—— 衡量运动强度；
GenVideo-RefVideo CLIP (Corresponding frames)：生成视频与参考视频对应帧的 CLIP 相似度均值（越高越好）—— 衡量运动的合理性（有参考视频场景）。

维度 3：时间一致性（Temporal Consistency）

评估生成视频帧间的连贯性，共 2 项指标（复用 1 项运动维度的指标，避免冗余）：

GenVideo CLIP (Adjacent frames)：生成视频相邻帧的 CLIP 相似度均值（越高越好）—— 衡量帧间语义连贯性（无参考视频场景）；
GenVideo-RefVideo CLIP (Corresponding frames)：复用运动维度的指标 —— 衡量生成视频与参考视频的帧间对应性（有参考视频场景）。

维度 4：视频质量（Video Quality）

评估生成视频的 “长度” 与 “整体质量”，共 2 项指标：

Frame Count：生成视频的帧数（越高越好）—— 衡量算法生成长视频的能力；
DOVER：无参考视频质量评估指标（越高越好）—— 从美学和技术层面综合评分（无参考视频场景）；
GenVideo-RefVideo SSIM：生成视频与参考视频对应帧的 SSIM 均值（越高越好）—— 衡量视频的空间结构质量（有参考视频场景）。

4.3 指标有效性验证

为确保指标与人类主观判断一致，团队通过 “用户研究” 验证：随机选取 5 个算法的各 30 个生成结果，由 42 名用户对 “图像保真度”“运动效果”“时间一致性”“视频质量” 四大维度投票，结果显示指标评分与用户投票高度吻合（后续实验会详细展示），证明指标体系的合理性。

五、实验设计与结果分析

论文选取了当前 I2V 领域的 5 个主流算法进行评估，涵盖 “开源项目” 与 “闭源项目”，确保结果具有代表性。

5.1 待评估模型与参数设置

开源模型（3 个）

VideoCrafter [4]：开源视频生成工具包，支持 I2V；参数：引导尺度（guidance scale）=12，DDIM 步数 = 25，分辨率按比例调整为统一尺寸；
I2VGen-XL [48]：阿里通义实验室开源的 I2V 模型；参数：引导尺度 = 9，FP16 精度推理；
Stable Video Diffusion (SVD) [2]：基于 Stable Diffusion 扩展的 I2V 模型；参数：25 帧版本，暂不支持文本输入（故不计算文本相关指标）。

闭源模型（2 个）

Pika [28]：工业界代表性模型，支持多风格视频生成；参数：默认运动强度 = 1，引导尺度 = 12，手动测试 60 个案例（30 个来自 WebVid，30 个来自人工生成数据集）；
Gen2 [7]：多模态视频生成系统；参数：默认运动强度 = 5，不启用相机运动参数。

5.2 定量结果分析

论文对 5 个模型在 11 项指标上的表现进行量化评估，结果如表 2 所示（↑表示指标越高越好，↓表示越低越好）。通过分析可得出以下关键结论：

结论 1：闭源模型在 “控制 - 视频对齐” 上全面领先

图像保真度（MSE/SSIM/Image-GenVideo CLIP）：Pika（MSE=155.30，SSIM=0.800）和 Gen2（MSE=235.53，SSIM=0.803）表现最佳，远优于开源模型（如 VideoCrafter 的 MSE=3929.65，SSIM=0.300）；
文本对齐（GenVideo-Text CLIP）：Pika（0.271）和 Gen2（0.270）略优于开源模型，但整体得分偏低，说明现有算法在 “文本细粒度控制” 上仍有不足。

结论 2：运动效果的 “强度” 与 “合理性” 需平衡

运动强度（Flow-Square-Mean）：SVD（2.52）最高（倾向于相机运动），Pika（0.281）最低（倾向于局部物体运动）；
运动合理性（GenVideo-RefVideo CLIP）：Pika（0.823）和 Gen2（0.818）最佳，说明其运动更符合真实场景；而 SVD 虽运动强度高，但合理性略低（0.796），因相机运动可能偏离参考视频。

结论 3：闭源模型在 “时间一致性” 和 “视频质量” 上优势显著

时间一致性（GenVideo CLIP）：Pika（0.996）和 Gen2（0.995）几乎无帧间断裂，远优于开源模型（如 I2VGen-XL=0.971）；
视频长度（Frame Count）：Gen2（96 帧，约 4 秒）最长，Pika（72 帧，约 3 秒）次之，开源模型最短（VideoCrafter 仅 16 帧）；
整体质量（DOVER）：Gen2（0.775）最高，Pika（0.715）次之，开源模型中 SVD（0.623）最佳。

5.3 定性结果分析

为更直观展示算法差异，论文选取 3 个典型场景（骑士在雪山马拉松、机器人在中世纪小镇解谜、美人鱼在古战场跳舞），对比了 5 个算法的生成效果，结果如图 3 所示。

注：从左到右依次为 VideoCrafter、I2VGen-XL、SVD、Pika、Gen2 的生成结果，每个场景对应一行。

定性结果进一步验证了定量结论：

开源模型：VideoCrafter 和 I2VGen-XL 难以保留输入图像的空间结构（如 “骑士雪山” 场景中，输入图像的 “雪山背景” 被严重篡改）；SVD 虽能保留结构，但运动以相机平移为主，缺乏物体自身运动；
闭源模型：Pika 和 Gen2 不仅能精准保留输入图像的细节（如 “美人鱼古战场” 场景中，美人鱼的姿态、古战场的背景均与输入一致），且运动更自然（如骑士的跑步、机器人的解谜动作）。

5.4 用户研究结果

为验证指标与人类判断的一致性，论文统计 42 名用户对 5 个算法在四大维度的 “最佳投票比例”，结果如图 4 所示（雷达图）。

注：数值表示用户投票该算法为 “某维度最佳” 的比例，维度包括图像保真度、运动效果、时间一致性、视频质量。

用户研究结果与定量指标高度吻合：

Gen2 在 “图像保真度” 和 “视频质量” 上得票最高；
Pika 在 “运动效果” 和 “时间一致性” 上得票最高；
SVD 在开源模型中表现均衡，得票仅次于闭源模型；
VideoCrafter 和 I2VGen-XL 在所有维度得票最低。

这进一步证明 AIGCBench 的指标体系能够准确反映人类主观感受，具备有效性。

六、核心发现与领域挑战

通过 AIGCBench 的全面评估，团队总结出当前 I2V 领域的三大核心挑战，为后续研究指明方向：

6.1 缺乏细粒度控制能力

现有算法虽能匹配文本的 “粗语义”（如 “骑士跑步”），但无法捕捉 “细粒度描述”（如 “骑士穿着红色盔甲、在雪山上以每秒 5 米的速度跑步”）。原因在于：

现有文本对齐依赖 CLIP 嵌入，仅能捕捉全局语义，无法区分细粒度差异；
缺乏针对 “视频场景” 的细粒度文本 - 视频对齐模型。

建议：未来需设计专门用于视频的细粒度语义匹配模型，将文本拆解为 “物体属性、运动参数、环境细节” 等子模块，逐一对齐生成视频。

6.2 长视频生成能力不足

当前主流算法的最大生成长度仅为 96 帧（Gen2，按 24fps 计算约 4 秒），远无法满足影视、广告等场景对 “分钟级视频” 的需求。现有解决方案存在缺陷：

多步推理（粗→细）：先生成关键帧，再补全中间帧，但难以保证帧间一致性；
多 GPU 单模型推理：虽能提升长度，但生成质量下降明显。

建议：需探索 “时间维度的稀疏建模”（如仅建模关键帧的时间依赖）或 “分层生成策略”（如先生成视频结构，再填充细节），在长度与质量间找到平衡。

6.3 推理速度过慢

现有算法生成 3 秒视频（约 72 帧）需在 V100 显卡上运行 1 分钟，无法满足实时应用需求。当前加速思路有两种：

** latent 空间降维 **：如 SVD 将视频映射到低维 latent 空间（尺寸缩小 8 倍），但会损失部分细节；
扩散模型加速：如采用 “蒸馏”“剪枝” 等技术，但可能导致生成质量下降。

建议：未来需结合 “latent 空间优化” 与 “扩散模型加速”，在速度与质量间 trade-off，例如设计更高效的 latent 表示，或采用 “非扩散模型”（如 Transformer）实现快速生成。

七、AIGCBench 的局限性与未来规划

7.1 现有局限性

样本量不足：因 I2V 模型推理慢、部分模型闭源，当前仅评估 3950 个案例，未来需扩大样本量；
细粒度评估缺失：无法自动判断 “物体运动方向与文本是否一致”（如 “水流从左到右” 是否与生成视频匹配），需依赖人工；
任务覆盖不全面：当前仅聚焦 I2V，未包含 T2V、V2V 等其他视频生成任务。

7.2 未来规划

扩展任务范围：将 T2V、V2V、深度 / 姿态引导的视频生成等任务纳入 AIGCBench，建立统一的视频生成评估框架；
提升细粒度评估能力：训练 “文本 - 视频细粒度对齐模型”，实现对 “运动方向、物体属性” 等细节的自动评估；
开源更多资源：扩大数据集规模，开放更多评估工具（如细粒度评估代码），推动领域标准化。

八、总结

AIGCBench 作为当前 I2V 领域最全面的评估基准，通过 “多样化数据集”“多维度指标体系”“公平的算法对比”，填补了现有评估体系的空白。其核心贡献可概括为三点：

数据集创新：融合真实世界与人工生成数据，覆盖开放域场景，样本量达 3928 个，远超现有基准；
指标体系创新：四大维度 11 项指标，同时支持有 / 无参考视频评估，且与人类判断高度一致；
领域洞察：通过评估明确现有算法的短板，指出 “细粒度控制、长视频生成、推理速度” 三大核心挑战，为后续研究提供方向。

AIGCBench 的开源（数据集与代码已发布于https://www.benchcouncil.org/AIGCBench）将推动 I2V 领域的标准化发展，助力更多高效、高质量的 I2V 算法诞生。对于研究者而言，AIGCBench 不仅是评估工具，更是洞察领域趋势的 “指南针”；对于工业界而言，AIGCBench 可作为算法选型的 “客观标准”，加速 I2V 技术的落地应用。

查看全文

http://www.dtcms.com/a/519374.html