当前位置：首页 > news >正文

阿里HumanAIGC 团队开源实时数字人项目ChatAnyone

news 2025/10/30 21:23:46

简介

ChatAnyone 是一个由 HumanAIGC 团队开发的开源项目，专注于从单张肖像照片和音频生成实时风格化的上半身动画视频。该项目发布于 2025 年，论文《ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model》由 Jinwei Qi 等人在 ArXiv 上发表，进一步阐述了其技术细节。项目背景源于虚拟主播、数字人和实时互动应用的需求增长，技术架构基于分层运动扩散模型，支持高效的实时生成。
在这里插入图片描述

项目背景

开发背景与目标

在这里插入图片描述

行业趋势：近年来，虚拟主播、数字人和在线教育领域的需求快速增长，用户对沉浸式体验的需求日益增加。传统的静态头像或简单语音交互已无法满足需求，实时生成动态、逼真的视频成为行业趋势。
技术挑战：ChatAnyone 的目标是解决实时视频生成的技术难题，包括口型同步、表情自然化、风格化输出以及双人互动场景的支持。研究显示，其在 RTX 4090 上实现了 30fps 的生成速度，分辨率最高支持 512×768，满足了实时应用的要求 [Post ID: 0].
应用场景：项目支持从单张照片生成上半身动画，适用于虚拟主播直播、播客视频生成、在线教育互动等场景。例如，生成双主持人播客视频，降低内容创作者的制作成本。

团队背景

HumanAIGC 是阿里巴巴集团旗下同易（Tongyi）团队的一部分，专注于以人为中心的生成式 AI 技术开发。该团队在生成式 AI 领域有多项研究成果，包括实时肖像视频生成、虚拟试穿和人物动画等。

尽管 HumanAIGC 被宣传为开源项目，但部分用户对其开源承诺有所质疑。例如，AnimateAnyone 和 Emote Portrait Alive 等相关项目曾被提及为开源，但最终未完全开放源代码，引发了社区讨论 [Web ID: 22]. 这种现象可能反映了大厂在技术创新与商业利益之间的平衡考量。

项目亮点

实时生成：在 RTX 4090 上实现 30fps 的生成速度，分辨率最高支持 512×768，适合消费级硬件。
风格化支持：支持卡通风格等多种输出风格，增强视频的可定制性。
双人互动：支持生成双主持人播客视频，适用于多人协作场景。
音频驱动：结合语音特征提取，实现口型同步和表情驱动，增强视频的真实感。

技术架构

在这里插入图片描述

ChatAnyone 的技术架构基于 Hierarchical Motion Diffusion Model（分层运动扩散模型），通过分解视频生成过程，实现高效的实时渲染。以下是其技术架构的详细分析：

核心技术：分层运动扩散模型

分层设计：将视频生成分解为多个层次，包括整体姿态、面部表情和手势动作。每个层次使用独立的扩散模型进行生成，减少了计算复杂度，同时提升了生成效果的自然度。
运动建模：通过分层模型，分别处理不同层次的运动（如头部、手部、身体），确保生成的视频具有流畅的动作和自然的过渡。
扩散模型：利用扩散模型（Diffusion Models）的强大生成能力，结合条件控制（如音频输入）实现音频驱动的视频生成。

音频处理与驱动

语音特征提取：从输入音频中提取语音特征（如梅尔频谱），用于驱动唇部动作和面部表情。
口型同步：通过音频特征控制唇部运动，确保生成的视频与音频同步。
表情生成：结合音频情感信息，生成自然的表情变化，增强视频的真实感。

图像生成与风格化

肖像生成：从单张照片生成动态肖像，支持风格化输出（如卡通风格）。
分辨率支持：最高支持 512×768 的分辨率，适用于高清视频输出。

实时性能优化

硬件加速：项目在 RTX 4090 上实现 30fps 的实时生成，依赖 GPU 加速。
模型优化：通过分层设计和高效的扩散模型，减少了计算延迟，支持实时应用。

在这里插入图片描述

性能对比

详见技术报告

在这里插入图片描述

阿里HumanAIGC 团队开源实时数字人项目ChatAnyone

简介

项目背景

开发背景与目标

团队背景

项目亮点

技术架构

核心技术：分层运动扩散模型

音频处理与驱动

图像生成与风格化

实时性能优化

性能对比

看看效果

相关文献

相关文章：