当前位置：首页 > news >正文

【AI论文】Story2Board：一种无需训练的富有表现力故事板生成方法

news 2025/8/16 10:55:28

摘要：我们提出Story2Board——一种无需训练即可从自然语言生成富有表现力故事板的框架。现有方法仅狭隘地关注主体身份，而忽略了视觉叙事的关键要素，如空间构图、背景演变和叙事节奏。为解决这一问题，我们引入了一个轻量级一致性框架，该框架由两个部分组成：潜在面板锚定（Latent Panel Anchoring），用于在各面板间保留共享的角色参考；互惠注意力值混合（Reciprocal Attention Value Mixing），用于在具有强互惠注意力的标记对之间柔和地融合视觉特征。这些机制无需对模型架构进行改动或微调，即可增强生成故事板的一致性，使最先进的扩散模型能够生成视觉多样且连贯的故事板。在生成过程中，我们利用现成的语言模型将自由形式的故事转换为具体的面板级提示。为进行评估，我们提出了“丰富故事板基准测试（Rich Storyboard Benchmark）”，该基准包含一系列开放领域叙事，旨在除一致性外，评估布局多样性和基于背景的叙事能力。此外，我们还引入了一项新的场景多样性指标，用于量化故事板中的空间和姿态变化。定性评估、定量评估以及用户研究均表明，与现有基线方法相比，Story2Board生成的故事板更具动态性、连贯性和叙事吸引力。Huggingface链接：Paper page，论文链接：2508.09983

研究背景和目的

研究背景：

随着文本到图像（Text-to-Image, T2I）扩散模型的快速发展，视觉内容创作领域经历了革命性的变革。这些模型能够根据自然语言提示生成高质量、连贯的图像，极大地提高了创作效率和灵活性。然而，当这些技术应用于更复杂的视觉叙事形式，如故事板生成时，仍存在显著挑战。故事板不仅是简单的图像序列，而是结构化的视觉叙事，需要跨越时间演变来描绘角色、环境和情感节奏，同时保持空间和语义上的一致性。

现有的故事板生成方法往往过于关注角色身份的一致性，而忽视了视觉叙事的关键方面，如空间构图、背景演变和叙事节奏。这导致生成的故事板在视觉上缺乏多样性和表现力，更像是幻灯片展示而非富有表现力的视觉叙事。因此，开发一种能够生成视觉上多样且连贯的故事板的方法，成为当前研究的重要方向。

研究目的：

本研究旨在提出一种无需训练的框架——Story2Board，用于从自然语言描述中生成富有表现力的故事板。具体目标包括：

保持角色身份一致性：在生成的故事板中保持主要角色的视觉身份一致。
增强空间构图和背景演变：通过动态场景构建，增强故事板的空间深度和背景丰富性。
提高叙事表现力：使生成的故事板在视觉上更加多样和连贯，能够更好地传达叙事内容。
无需额外训练或架构修改：通过轻量级的一致性机制，直接应用于预训练的T2I扩散模型，避免复杂的训练过程或模型修改。

研究方法

为了实现上述目标，本研究提出了Story2Board框架，该框架主要包括以下几个关键组成部分：

轻量级一致性机制：

潜在面板锚定（Latent Panel Anchoring, LPA）：通过为每个面板提供一个共享的参考描述，利用模型的自注意力机制在去噪过程中保持视觉一致性。具体来说，每个面板的生成都基于一个共同的参考面板，该参考面板描述了故事中所有重复出现的角色或对象。
互惠注意力值混合（Reciprocal Attention Value Mixing, RA VM）：通过在对应标记对之间柔和地混合视觉特征，增强跨面板的一致性。RA VM利用双向注意力分数识别语义上对齐的标记对，并在这些标记对之间传播纹理和样式信息，从而在保持场景多样性的同时增强角色一致性。

提示分解：

使用现成的大语言模型（如GPT-4o）将自由形式的自然语言故事分解为共享的参考面板提示和一系列场景级别的面板提示。这些提示随后被联合渲染，以生成连贯的故事板。

评估基准和指标：

引入了Rich Storyboard Benchmark，这是一个包含100个开放领域故事提示的集合，每个提示都分解为七个详细描述的场景级别提示。该基准旨在评估故事板在布局灵活性、背景细节和叙事表现力方面的能力。
提出了Scene Diversity指标，用于量化故事板中角色外观的变化，包括大小、位置和姿势的变化，从而更全面地评估视觉叙事的灵活性。

研究结果

通过在Rich Storyboard Benchmark和DS-500基准上的广泛实验，本研究取得了以下主要结果：

定性评估：

Story2Board生成的故事板在角色一致性、提示对齐和场景多样性方面表现出色。与基线方法相比，Story2Board能够支持更多样化的框架和角色定位，同时保持连贯且视觉丰富的环境。
基线方法往往在某些方面表现过度：如StoryDiffusion倾向于将角色置于中心位置，IC-LoRA重复构图模板，而OminiControl经常忽略偏离中心的角色。

定量评估：

在Rich Storyboard Benchmark上，Story2Board在提示对齐（VQAScore）和角色一致性（DreamSim）方面均优于基线方法。同时，在场景多样性方面也表现出色，显著高于其他方法。
在DS-500基准上的评估也表明，Story2Board在保持较高角色一致性的同时，实现了具有竞争力的提示对齐性能。