当前位置: 首页 > news >正文

ICCV 2025 | 清华IEDA提出GUAVA,单图创建可驱动的上半身3D化身!实时、高效,还能捕捉细腻的面部表情和手势。

从单张图片重建高质量、可动画化且面部与手部动作丰富的 3D 人体化身,应用前景广阔。但传统重建方法依赖多视角或单目视频,还要针对不同个体训练,复杂又耗时,且受 SMPLX 限制,难以捕捉面部表情。为解决这些问题,清华大学和 IDEA(粤港澳大湾区数字经济研究院)研究团队先引入富有表现力的人体模型(EHM)增强面部表现,开发精确跟踪方法,进而提出首个快速重建可动画化上半身 3D 高斯化身的框架 GUAVA。它借助逆纹理映射等技术推断模型,经优化后,在渲染质量和速度上表现优异,相关代码已开源。

介绍

创建逼真且富有表现力的上半身人体化身,例如包含细致的面部表情和丰富的手势,在电影、游戏和虚拟会议等领域具有重要价值 。同时,易于创建和支持实时渲染也是关键要求 。然而,仅凭单张图像实现这些目标仍然是一个的重大挑战 。

3D Gaussian splatting (3DGS) 的兴起催生了许多3D化身重建方法,它们利用 3DGS 实现实时、高质量的化身重建 。然而,这些方法仍然存在一些局限性 :

  • 逐ID练:每个个体都需要单独训练 。

  • 训练复杂性:该过程耗时,需要标定的多视图或单目视频 。

  • 表现力有限:头部重建方法缺乏身体动作表示,而全身方法则忽略了细致的面部表情 。

扩散模型在视频生成方面取得了显著成果 。一些工作通过添加额外条件,如关键点或 SMPLX渲染图,来引导扩散模型的生成过程,扩展了模型在生成可控人体动画视频上的应用。尽管这些方法实现了良好的视觉效果,但它们仍然面临一些局限性 :

  • ID一致性:难以保持一致的 ID,尤其是在姿势发生大变化时 。

  • 效率:高计算成本和多步去噪导致推理速度慢,阻碍了实时应用 。

  • 视点控制:2D 方法无法轻松调整相机姿势,从而限制了视点控制 。

我们提出了 GUAVA,第一个从单张图像创建可驱动上半身 3D高斯化身的框架。与需要多视图视频或单人训练的3D方法不同,GUAVA 可以在秒级时间内完成推理重建,并支持实时动画和渲染 。与基于扩散模型的2D方法相比,GUAVA使用 3D高斯来确保更好的ID一致性和实时渲染 。并引入一种富有表现力的人体模型EHM,解决了现有模型在捕捉细致面部表情方面的局限性 。还利用逆纹理映射技术以准确地预测高斯纹理,并结合一个神经渲染器来提高渲染质量 。通过充分的实验也展示了其在渲染质量和效率方面优于现有2D和3D方法 。

相关链接

  • 论文地址: https://arxiv.org/pdf/2505.03351

  • 项目主页:https://eastbeanzhang.github.io/GUAVA/

  • 开源代码:https://github.com/Pixel-Talk/GUAVA

  • 视频Demo: GUAVA: Generalizable Upper Body 3D Gaussian Avatar_哔哩哔哩_bilibili

方法

  • EHM 模型与精确跟踪:为了解决SMPLX 模型在捕捉面部表情上的不足,GUAVA 引入了 EHM(Expressive Human Model)。EHM 结合了 SMPLX 和 FLAME 模型,能够实现更准确的面部表情表示 。同时我们设计了对应的通过两阶段追踪方法,实现从单张图像到姿态的准确估计。首先利用预训练模型进行粗略估计,然后使用 2D 关键点损失进行精细优化,从而为重建提供精确的姿势和表情参数 。

  • 快速重建与双分支模型: GUAVA基于追踪后的图像通过单次前向推理方式完成化身的重建。它包含两个分支:一个分支根据 EHM 顶点和投影特征预测粗略的“模板高斯”,另一个分支则通过“逆纹理映射”技术,将屏幕特征映射到 UV 空间,生成捕捉精细细节的“UV 高斯”。这两种高斯组合成完整的 Ubody 高斯,从而在保持几何结构的同时,捕捉丰富的纹理细节。

  • 实时动画与渲染:重建完成后,Ubody 高斯可以根据新的姿势参数进行变形和动画 。最后,通过神经细化器对渲染的图像进行优化,以增强细节和渲染质量 。

实验

实验设置

我们从 YouTube、OSX和 HowToSign收集视频数据集,主要关注人体上半身视频。其中训练集包含超过 62 万帧,测试集包含 58 个 ID 。为确保评估的全面性,实验采用了多种指标:自重演(self-reenactment)场景下,通过 PSNR、L1、SSIM 和 LPIPS 评估动画结果的图像质量 ;跨重演(cross-reenactment)场景下,使用 ArcFace 计算身份保留分数(IPS)以衡量 ID 一致性 。评估中与 MagicPose、Champ、MimicMotion 等2D方法以及 GART、GaussianAvatar 和 ExAvatar 3D方法进行比较。

定量结果

Self-reenactment:与 2D 方法相比,GUAVA 在所有指标(PSNR, L1​, SSIM, LPIPS)上均表现最佳,并在动画和渲染速度上达到约 50 FPS,而其他方法仅为每秒几帧 。与 3D 方法相比,GUAVA 的重建时间仅为 0.1 秒左右,而其他方法需要数分钟到数小时 。

Cross-reenactment:GUAVA 在身份保留分数(IPS)上显著优于其他所有 2D 方法,证明了其在不同姿势下保持 ID 一致性的能力 。

定性结果

尽管 2D 方法能生成高质量图像,但它们在保持 ID 一致性和准确恢复复杂手势及面部表情方面存在不足 。例如,Champ 的手部模糊 ,MagicPose 存在失真 ,而 MimicMotion 则无法保持 ID 一致性 。3D 方法在处理精细的手指和面部表情方面存在困难,也缺乏泛化能力,在未见区域或极端姿势下会产生伪影 。GUAVA 则能对未见区域生成合理的结果,在极端姿势下表现出更好的鲁棒性,并提供更准确、更细致的手部和面部表情 。

消融实验

为了验证方法中各个部分的有效性,在论文中进行了充分的消融实验。

论文总结

该论文介绍了 GUAVA,一个用于从单张图像重建可动画、具有细腻表现力上半身 3D化身的快速框架 。研究通过引入 EHM 模型及其精确跟踪方法,增强了面部表情、形状和姿势的捕捉能力 。论文通过UV 高斯和模板高斯的两个推理分支共同构建一个上半身高斯 。实验结果表明,GUAVA 在渲染质量和效率方面均优于现有方法 。它实现了约 0.1 秒的重建时间,并支持实时动画和渲染 。

http://www.dtcms.com/a/353859.html

相关文章:

  • 【51单片机】【protues仿真】基于51单片机篮球计时计分器数码管系统
  • 什么是代理ip?代理ip的运作机制
  • C++ 中 ::(作用域解析运算符)的用途
  • 大小鼠糖水偏爱实验系统 糖水偏好实验系统 小鼠糖水偏好实验系统 大鼠糖水偏好实验系统
  • 【半导体制造流程概述】
  • 优化IDEA卡顿的问题
  • 使用CCProxy搭建http/https代理服务器
  • AWS OpenSearch 可观测最佳实践
  • Maya绑定:人物绑定详细案例
  • 数据结构之 【红黑树的简介与插入问题的实现】
  • 数值分析离散积分近似求值
  • 【数据分析】微生物群落网络构建与模块划分的比较研究:SparCC、Spearman-RAW与Spearman-CLR方法的性能评估
  • Shell编程-随机密码生成
  • volitale伪共享问题及解决方案
  • SoC如何实现线程安全?
  • 【进阶篇第五弹】《详解存储过程》从0掌握MySQL中的存储过程以及存储函数
  • TypeScript:Interface接口
  • 如何启动一个分支网络改造试点?三步走
  • 【链表 - LeetCode】25. K 个一组翻转链表
  • 干眼症护理学注意事项
  • linux下的网络编程(2)
  • 技术分析 | Parasoft C/C++test如何突破单元测试的隔离难题
  • 亚马逊关键词策略全解析:类型、工具与多账号运营优化指南
  • AT_abc406_f [ABC406F] Compare Tree Weights
  • Windows/Linux 环境下 Jmeter 性能测试的安装与使用
  • 基于SpringBoot的宠物领养服务系统【2026最新】
  • MySQL 面试题系列(五)
  • Unity自定义Inspector面板之使用多选框模拟单选框
  • 前端技术演进录:从 AI 革命到架构新生
  • 【Linux】常用命令 拥有者和权限(四)