当前位置: 首页 > news >正文

复旦联合百度发布Hallo4:让AI肖像“活”起来!新型扩散框架实现高保真音频驱动动画生成!

复旦联合百度发布扩散框架Hallo4,实现了准确的唇音同步、自然的面部表情,并能够稳健地处理各种角色身份和环境场景中快速的语音节奏和突然的上身运动。

相关链接

  • 论文:https://arxiv.org/pdf/2505.23525

  • 项目:https://github.com/xyz123xyz456/hallo4

论文介绍

由于需要精确的唇部同步、自然的面部表情和高保真度的身体运动动态,生成由音频和骨骼运动驱动的高动态和逼真的肖像动画仍然具有挑战性。我们提出了一个与人类偏好一致的扩散框架,通过两项关键创新来应对这些挑战。首先,我们引入了针对以人为中心的动画定制的直接偏好优化,利用精选的人类偏好数据集,将生成的输出与感知指标进行对齐,以实现肖像运动与视频的对齐和表情的自然性。其次,我们提出的时间运动调制通过时间通道重分配和比例特征扩展,将运动条件重塑为维度对齐的潜在特征,从而解决了时空分辨率不匹配的问题,并在基于扩散的合成中保留了高频运动细节的保真度。所提出的机制是对现有基于 UNet 和 DiT 的肖像扩散方法的补充。实验表明,与基线方法相比,该方法在唇音同步、表情生动度和身体运动连贯性方面均有显着提升,同时在人类偏好指标方面也取得了显着提升。

方法概述

所提出的肖像动画框架示意图。 给定参考肖像图像和多模态控制信号(音频波形和可选的骨骼运动序列),论文方法通过两项关键创新生成高保真、动态连贯的动画:

  1. 直接偏好优化,以实现与人类对齐的同步和表现力;

  2. 统一的时间运动调制,以保留高频身体运动细节。

该框架实现了准确的唇音同步、自然的面部表情,并能够稳健地处理各种角色身份和环境场景中快速的语音节奏和突然的上身运动。

演示基于 DiT 且具有统一时间运动调制的肖像生成流程。

演示基于 DiT 且具有统一时间运动调制的肖像生成流程。

实验结果

结论

论文提出了一个基于人类偏好的头像动画新框架,该框架将直接偏好优化与统一的时间运动调制相结合。通过整理首个以运动视频同步和表情自然度为目标的DPO数据集,论文方法显著提升了唇部同步的准确性和面部表情的丰富性,同时保持了高保真渲染。提出的时间调制机制通过特征重分配有效地解决了DiT架构中的运动粒度下降问题,从而实现了快速关节手势的精确同步。虽然工作目前专注于上半身合成,但它为将偏好感知优化扩展到全身头像动画奠定了基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dtcms.com/a/237016.html

相关文章:

  • 轻量高效的B站视频下载解析
  • 【CSS-5】深入理解CSS复合选择器:提升样式表的精确性与效率
  • React Hooks 示例项目
  • 大话软工笔记—需求调研概述
  • 探针有哪些?探测方法有哪些?
  • 一个完整的日志收集方案:Elasticsearch + Logstash + Kibana+Filebeat (二)
  • vue3+dify从零手撸AI对话系统
  • 深入剖析MySQL存储架构,索引结构,日志机制,事务提交流程
  • Sklearn 机器学习 缺失值处理 填充数据列的缺失值
  • Oracle 客户端深度指南:SQL Developer 与 PL/SQL Developer 全面安装使用教程
  • SpringAI Alibaba实战文生图
  • Python Day45
  • LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明
  • 量子计算突破:新型超导芯片重构计算范式
  • Three.js实现梦幻星光漩涡特效 - 从原理到实现
  • 罗尔斯·罗伊斯数字孪生技术赋能航空发动机运维革新:重构维护范式,驱动行业低碳转型
  • Xilinx FPGA 重构Multiboot ICAPE2和ICAPE3使用
  • Linux安装jdk、tomcat
  • SpringBoot离线应用的5种实现方式
  • 【优选算法】前缀和
  • Tableau for mac 驱动
  • 【PhysUnits】15.18 Unit基础结构 (unit.rs)
  • 好未来0520上机考试题1:括号的最大嵌入深度
  • 【PCIe总线】 -- PCI、PCIe相关实现
  • 【Dv3Admin】系统视图下载中心API文件解析
  • 【leetcode】递归,回溯思想 + 巧妙解法-解决“N皇后”,以及“解数独”题目
  • 从零开始制作小程序简单概述
  • C++设计模式 - 单例模式
  • 硬件电路设计-开关电源设计
  • 第22讲、Odoo18 QWeb 模板引擎详解