当前位置: 首页 > news >正文

阿里HumanAIGC 团队开源实时数字人项目ChatAnyone

简介

ChatAnyone 是一个由 HumanAIGC 团队开发的开源项目,专注于从单张肖像照片和音频生成实时风格化的上半身动画视频。该项目发布于 2025 年,论文《ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model》由 Jinwei Qi 等人在 ArXiv 上发表,进一步阐述了其技术细节。项目背景源于虚拟主播、数字人和实时互动应用的需求增长,技术架构基于分层运动扩散模型,支持高效的实时生成。
在这里插入图片描述

项目背景

开发背景与目标

在这里插入图片描述

  • 行业趋势:近年来,虚拟主播、数字人和在线教育领域的需求快速增长,用户对沉浸式体验的需求日益增加。传统的静态头像或简单语音交互已无法满足需求,实时生成动态、逼真的视频成为行业趋势。

  • 技术挑战:ChatAnyone 的目标是解决实时视频生成的技术难题,包括口型同步、表情自然化、风格化输出以及双人互动场景的支持。研究显示,其在 RTX 4090 上实现了 30fps 的生成速度,分辨率最高支持 512×768,满足了实时应用的要求 [Post ID: 0].

  • 应用场景:项目支持从单张照片生成上半身动画,适用于虚拟主播直播、播客视频生成、在线教育互动等场景。例如,生成双主持人播客视频,降低内容创作者的制作成本。

团队背景

HumanAIGC 是阿里巴巴集团旗下同易(Tongyi)团队的一部分,专注于以人为中心的生成式 AI 技术开发。该团队在生成式 AI 领域有多项研究成果,包括实时肖像视频生成、虚拟试穿和人物动画等。

尽管 HumanAIGC 被宣传为开源项目,但部分用户对其开源承诺有所质疑。例如,AnimateAnyone 和 Emote Portrait Alive 等相关项目曾被提及为开源,但最终未完全开放源代码,引发了社区讨论 [Web ID: 22]. 这种现象可能反映了大厂在技术创新与商业利益之间的平衡考量。

项目亮点

  • 实时生成:在 RTX 4090 上实现 30fps 的生成速度,分辨率最高支持 512×768,适合消费级硬件。

  • 风格化支持:支持卡通风格等多种输出风格,增强视频的可定制性。

  • 双人互动:支持生成双主持人播客视频,适用于多人协作场景。

  • 音频驱动:结合语音特征提取,实现口型同步和表情驱动,增强视频的真实感。

技术架构

在这里插入图片描述

ChatAnyone 的技术架构基于 Hierarchical Motion Diffusion Model(分层运动扩散模型),通过分解视频生成过程,实现高效的实时渲染。以下是其技术架构的详细分析:

核心技术:分层运动扩散模型

  • 分层设计:将视频生成分解为多个层次,包括整体姿态、面部表情和手势动作。每个层次使用独立的扩散模型进行生成,减少了计算复杂度,同时提升了生成效果的自然度。

  • 运动建模:通过分层模型,分别处理不同层次的运动(如头部、手部、身体),确保生成的视频具有流畅的动作和自然的过渡。

  • 扩散模型:利用扩散模型(Diffusion Models)的强大生成能力,结合条件控制(如音频输入)实现音频驱动的视频生成。
    在这里插入图片描述

音频处理与驱动

  • 语音特征提取:从输入音频中提取语音特征(如梅尔频谱),用于驱动唇部动作和面部表情。

  • 口型同步:通过音频特征控制唇部运动,确保生成的视频与音频同步。

  • 表情生成:结合音频情感信息,生成自然的表情变化,增强视频的真实感。
    在这里插入图片描述

图像生成与风格化

  • 肖像生成:从单张照片生成动态肖像,支持风格化输出(如卡通风格)。

  • 分辨率支持:最高支持 512×768 的分辨率,适用于高清视频输出。

实时性能优化

  • 硬件加速:项目在 RTX 4090 上实现 30fps 的实时生成,依赖 GPU 加速。

  • 模型优化:通过分层设计和高效的扩散模型,减少了计算延迟,支持实时应用。

在这里插入图片描述

性能对比

详见技术报告

在这里插入图片描述

看看效果

相关文献

官方地址:https://humanaigc.github.io/chat-anyone/
技术报告:https://arxiv.org/pdf/2503.21144

相关文章:

  • 俄罗斯方块-简单开发版
  • using用法整理
  • 高等数学同步测试卷 同济7版 试卷部分 上 做题记录 上册期中同步测试卷 B卷
  • c++ 类和动态内存分配
  • Java基础语法
  • 本地搭建MQTT服务器并进行设备控制(ESP32+MicroPython)
  • Qt6离线安装过程
  • HarmonyOS 笔记
  • 9.QT-显示类控件|Label|显示不同格式的文本|显示图片|文本对齐|自动换行|缩进|边距|设置伙伴(C++)
  • 2025.4.20总结
  • 基于尚硅谷FreeRTOS视频笔记——11—RTOS获取源码及源码简介
  • STM32基础教程——串口收发
  • YOLOv11改进——基于注意力机制和密集小目标增强型EVA模块的设计与实现
  • QML中的JSON 处理
  • VMware虚拟机走主机代理上网
  • SAP IAS云产品简介
  • 《猎豹夕阳》
  • 机器学习(神经网络基础篇)——个人理解篇6(概念+代码)———参数优化篇
  • 【AI图像创作变现】02工具推荐与差异化对比
  • Vue3中provide和inject数据修改规则
  • 9米长林肯车开进“皖南川藏线”致拥堵数小时,车主回应称将配合调查
  • 三亚再回应游客骑摩托艇出海遇暴雨:俱乐部未配备足额向导人员,停业整改
  • 德雷克海峡发生7.4级地震,震源深度10千米
  • 巴菲特执掌60年,伯克希尔市值如何增长5.5万倍?详解五大经典投资案例
  • 《一鸣惊人》五一特别节目:以戏曲为桥梁,展现劳动者的坚守
  • 短剧迷|《权宠》一出,《名不虚传》