【AI论文】FlexiAct:在异构场景中实现灵活的动作控制
摘要:动作定制涉及生成视频,其中主体执行由输入控制信号指示的动作。 当前的方法使用姿势引导或全局运动定制,但受到空间结构(如布局、骨架和视点一致性)严格约束的限制,降低了在不同主题和场景下的适应性。 为了克服这些局限性,我们提出了FlexiAct,它将动作从参考视频转移到任意目标图像。 与现有方法不同,FlexiAct允许参考视频的主题和目标图像之间的布局、视点和骨架结构发生变化,同时保持身份一致性。 实现这一目标需要精确的动作控制、空间结构适应和一致性保持。 为此,我们引入了RefAdapter,这是一种轻量级的图像条件适配器,在空间适应性和一致性保持方面表现出色,在平衡外观一致性和结构灵活性方面超越了现有方法。 此外,根据我们的观察,去噪过程在不同时间步长对运动(低频)和外观细节(高频)表现出不同程度的关注。 因此,我们提出了FAE(频率感知动作提取),与依赖于单独的时空架构的现有方法不同,它直接在去噪过程中实现了动作提取。 实验证明,我们的方法有效地将动作转移到具有不同布局、骨架和视点的对象上。 我们发布了代码和模型权重,以支持在Github。Huggingface链接:Paper page,论文链接:2505.03730
研究背景和目的
研究背景
在电影、游戏和动画制作中,动作转移(Action Transfer)技术具有广泛的应用前景。然而,传统的动作转移方法往往依赖于专业的运动捕捉系统或高度熟练的技术人员,导致制作成本高昂且耗时费力。例如,创建一个30秒、每秒12帧的动画,可能需要六名专业动画师花费约20个工作日。这些高昂的成本限制了动作转移技术在更广泛领域的应用,特别是对于小型制作团队或个人创作者而言。
随着计算机视觉和人工智能技术的发展,研究人员开始探索通过视频生成技术实现动作控制的方法。目前,这些方法大致可以分为两类:基于预定义信号的方法和全局运动方法。基于预定义信号的方法使用姿势、深度图等信号来控制目标主体的动作,但这类方法要求目标图像和参考视频在空间结构(如形状、骨架、视点)上严格对齐,这在现实场景中往往难以实现。全局运动方法则通常生成具有固定布局的运动,无法在不同主体之间转移动作。此外,一些方法虽然尝试通过低秩适应(LoRA)等技术实现动画定制,但在外观一致性和灵活性方面仍面临挑战。
研究目的
针对现有方法的局限性,本研究旨在提出一种名为FlexiAct的灵活动作定制框架,以实现在异构场景中灵活的动作控制。具体而言,FlexiAct的目标包括:
- 跨主体动作转移:能够在不依赖严格空间结构对齐的情况下,将参考视频中的动作转移到任意目标图像上,同时保持目标主体的身份一致性。
- 空间结构适应性:适应不同布局、视点和骨架结构的目标图像,确保动作转移过程中的空间结构适应性。
- 精确的动作提取与控制:从参考视频中精确提取动作,并在生成视频中实现精确的动作控制。
- 外观一致性:在动作转移过程中保持目标主体的外观一致性,确保生成视频的真实性和可信度。
研究方法
基础模型选择
FlexiAct基于CogVideoX-I2V模型进行构建,该模型是一个基于MMDiT(Multi-Modal Diffusion Transformer)的视频扩散模型,能够在潜在空间中生成视频。CogVideoX-I2V利用3D VAE(Variational Autoencoder)将条件图像和视频映射到潜在空间,并通过扩散过程生成视频。
RefAdapter模块
为了实现空间结构适应性和外观一致性,本研究引入了RefAdapter模块。RefAdapter是一个轻量级的图像条件适配器,通过向CogVideoX-I2V的MMDiT层注入低秩适应(LoRA)来实现。在训练过程中,RefAdapter使用未编辑视频中的随机帧作为条件图像,以最大化空间结构差异,从而增强模型对不同空间结构的适应性。此外,RefAdapter通过替换视频潜在表示的第一帧嵌入,使模型能够使用该嵌入作为视频生成的参考,而不是将其约束为视频的起点。
Frequency-aware Action Extraction (FAE)
为了实现精确的动作提取与控制,本研究提出了频率感知动作提取(FAE)方法。FAE通过引入一组可学习的嵌入来捕捉参考视频中的纠缠视频信息,并在去噪过程中动态调整视频标记对频率感知嵌入的注意力权重。具体而言,FAE在训练过程中为每个参考视频训练一个频率感知嵌入,该嵌入包含可学习的参数,并连接到MMDiT层的输入上。在推理过程中,FAE根据去噪时间步长动态调整视频标记对频率感知嵌入的注意力权重,以优先关注低频运动信息(早期时间步长)和高频外观细节(后期时间步长)。
训练与推理流程
FlexiAct的训练分为两个阶段:首先训练RefAdapter模块,然后在每个参考视频上训练频率感知嵌入。在推理阶段,加载RefAdapter模块,并提供任意目标图像。FAE根据去噪时间步长动态调整生成视频对频率感知嵌入的注意力权重,从而将参考视频中的动作转移到目标图像上。
研究结果
定量评估
为了验证FlexiAct的有效性,本研究在包含250个视频-图像对的评估数据集上进行了实验,涵盖了25种不同的动作类别。实验结果表明,FlexiAct在运动保真度(Motion Fidelity)和外观一致性(Appearance Consistency)方面均显著优于基线方法(如MotionDirector和BaseModel)。具体而言,FlexiAct在运动保真度上的得分(0.4103)高于MotionDirector(0.3496)和BaseModel(0.3562),在外观一致性上的得分(0.9162)也显著高于其他方法。
定性评估
定性评估结果进一步验证了FlexiAct在动作转移和外观一致性方面的优越性。如图5所示,FlexiAct能够准确地将参考视频中的动作转移到具有不同布局、视点和骨架结构的目标图像上,同时保持目标主体的外观一致性。相比之下,基线方法(如MotionDirector和BaseModel)在动作准确性和外观一致性方面存在明显不足。
消融研究
消融研究结果表明,RefAdapter和FAE模块在FlexiAct中均发挥着重要作用。去除FAE模块后,运动保真度显著下降,表明FAE在动作提取中的关键作用。去除RefAdapter模块后,外观一致性和运动准确性均受到严重影响,进一步证明了RefAdapter在空间结构适应性和外观一致性保持方面的重要性。
研究局限
尽管FlexiAct在异构场景中实现了灵活的动作控制,但仍存在一些局限性:
-
参考视频依赖:与现有方法类似,FlexiAct需要为每个参考视频优化模型参数,这增加了计算成本和时间消耗。开发适用于异构场景的前馈运动转移方法是未来研究的一个重要方向。
-
复杂动作处理:对于涉及复杂交互或多人协作的动作,FlexiAct的性能可能受到限制。未来的研究可以探索如何结合多模态信息(如语音、文本描述)来提高复杂动作的处理能力。
-
实时性能:尽管FlexiAct在生成高质量视频方面表现出色,但其推理过程可能较为耗时,难以满足实时应用的需求。未来的研究可以探索如何优化模型结构或采用更高效的推理算法来提高实时性能。
未来研究方向
针对FlexiAct的局限性,未来的研究可以从以下几个方面展开:
-
前馈运动转移方法:开发适用于异构场景的前馈运动转移方法,以减少对参考视频的依赖并提高计算效率。这可以通过引入元学习(Meta-Learning)或迁移学习(Transfer Learning)等技术来实现。
-
多模态信息融合:探索如何结合多模态信息(如语音、文本描述、手势识别等)来提高复杂动作的处理能力。通过融合多种信息源,可以更准确地捕捉动作意图并生成更自然的视频内容。
-
实时性能优化:优化模型结构或采用更高效的推理算法来提高FlexiAct的实时性能。例如,可以采用轻量级网络结构、模型剪枝(Model Pruning)或量化(Quantization)等技术来减少计算量和内存占用。
-
跨域动作转移:研究如何将FlexiAct应用于跨域动作转移场景,如将人类动作转移到动画角色或机器人上。这需要解决不同域之间的语义鸿沟和动作表示差异问题。
-
用户交互与反馈:开发用户交互界面和反馈机制,使用户能够更直观地控制动作转移过程并根据反馈进行调整。这可以通过引入强化学习(Reinforcement Learning)或生成对抗网络(GAN)等技术来实现。
综上所述,FlexiAct在异构场景中实现了灵活的动作控制,为电影、游戏和动画制作等领域提供了新的技术手段。未来的研究可以进一步探索如何优化模型性能、扩展应用场景并提高用户交互体验。