当前位置：首页 > news >正文

打破“形似”桎梏，OmniHuman-1.5让数字人“由内而外”活起来。

news 2025/9/30 9:46:30

当前视频角色模型虽能生成流畅动画，却困于“低级同步”陷阱——动作仅与音频节奏机械匹配，难以捕捉情感、意图等深层语义，导致角色缺乏真实灵魂。为突破这一瓶颈，字节跳动与谷歌联合提出的OmniHuman-1.5框架，以“双系统认知架构”重新定义角色动画生成逻辑。

该模型通过多模态大语言模型（MLLM）合成结构化文本语义，赋予动作生成器对语境与情感的感知能力，使角色动作从“节奏同步”升级为“情感共鸣”。在口型同步、视频质量、运动自然度及语义一致性上全面领先，更可扩展至多人交互、非人类角色等复杂场景，为影视动画、虚拟社交等领域带来颠覆性可能。

双虚拟系统

OmniHuman-1.5 仅通过一张图片和一条语音轨道，即可生成富有表现力的角色动画，这些动画与语音的节奏、韵律和语义内容相一致，并可选配文本提示以供进一步完善。受大脑“系统 1 和系统 2”认知理论的启发，我们的架构连接了多模态大型语言模型和扩散变换器，模拟了两种不同的思维模式：缓慢、深思熟虑的计划和快速、直觉的反应。这种强大的协同作用使得生成超过一分钟的视频成为可能，其中包含高度动态的动作、连续的摄像机运动以及复杂的多角色交互。

节奏表演

这种多功能性延伸到了音乐领域，我们的框架只需一张图片和一首歌，就能打造出一位充满灵魂的数字歌手。在推理模块的驱动下，该动作能够捕捉丰富的音乐表达，而不仅仅是唇形同步，包括自然的停顿和停顿，从而熟练地处理从独唱民谣到轻快音乐会的各种风格。

情感表演

只需一张图片和一段音频，就能赋予数字演员生命。无需文字提示，通过分析音频的情感潜台词，它能够生成引人入胜、具有电影般张力的表演，涵盖从爆发性的愤怒到真挚的告白等各种戏剧性场景。

情境感知音频驱动动画

模型通过解释音频的语义背景超越了简单的口型同步和重复的手势，使角色能够表现出真实的情绪变化，并将手势与他们的言语和意图相匹配，就好像由他们自己的意志驱动一样。

文本引导的多模式动画

接受文本提示并展示出色的提示跟踪，从而能够精确控制对象生成、摄像机移动和特定动作，同时保持完美的音频同步。

多人场景表演

我们的框架可扩展到复杂的多人场景。它通过将单独的音轨路由到单帧中正确的角色，生成动态的群组对话和合奏表演。

多样化输入带来更多结果

我们的模型通过生成涵盖各种主题（包括真实动物、拟人人物和风格化卡通）的高质量同步视频，展现了真正的稳健性。

论文介绍

该模型通过多模态大语言模型（MLLM）合成结构化文本语义，赋予动作生成器对语境与情感的感知能力，使角色动作从“节奏同步”升级为“情感共鸣”；同时，创新的多模态DiT架构与“伪最后一帧”设计，有效融合音频、图像、文本特征，缓解模态冲突，确保生成动作与角色设定、场景逻辑高度一致。实验表明，其在口型同步、视频质量、运动自然度及语义一致性上全面领先，更可扩展至多人交互、非人类角色等复杂场景，为影视动画、虚拟社交等领域带来颠覆性可能。