当前位置: 首页 > news >正文

阿里通义实验室发布图片数字人项目LAM,实现高保真重建

简介

在这里插入图片描述

LAM项目结合了3D Gaussian Splatting(高斯点云渲染)和大规模预训练模型的优势,解决了传统头部重建方法效率低、依赖多数据的痛点。其背景源于AI生成内容(AIGC)领域对实时、高保真3D头像生成的需求,尤其是在虚拟现实、游戏、虚拟主播等场景中。
在这里插入图片描述

技术背景与研究动机

在这里插入图片描述

近年来,3D头部重建和动画生成技术在虚拟现实(VR)、增强现实(AR)、游戏、影视制作以及在线会议等场景中需求日益增加。传统方法通常需要多视角图像或视频序列来训练模型,并且在推理阶段依赖额外的神经网络进行动画和渲染,这导致计算成本高、实时性差。LAM项目的目标是解决这些问题,通过“单张图像输入”(One-shot)生成可立即动画化和渲染的3D头部模型,显著降低使用门槛并提升效率。
该项目受到3D Gaussian Splatting(3DGS)技术的启发,这是一种近年来兴起的3D表示方法,通过高斯分布的点云来高效渲染复杂场景。LAM将这一技术与大规模预训练模型结合,试图在单次前向传播中完成头部重建和动画准备,填补现有技术在实时性和泛化能力上的不足。

核心技术与创新点

在这里插入图片描述

LAM的核心在于其“Canonical Gaussian Attributes Generator”(规范高斯属性生成器),这是一个基于FLAME模型(一种经典的3D可变形头部模型)的框架。具体创新点包括:

  • 单张图像重建:通过从单张图像预测3D高斯点云的属性(如位置、颜色、透明度等),LAM避免了多视角输入的需求。

  • 实时动画与渲染:生成的3D头部模型直接支持基于FLAME的线性混合蒙皮(Linear Blend Skinning, LBS)和表情修正(Corrective Blendshapes),无需额外的后处理或辅助网络。

  • 跨平台兼容性:通过WebGL渲染支持,LAM可以在包括移动设备在内的多种平台上实现实时动画和渲染。

  • 多尺度特征融合:利用Transformer架构,将FLAME的规范点与图像的多尺度特征进行交互,提升重建精度和纹理细节。

  • 这些特性使LAM在保持高质量重建的同时,显著提高了效率和实用性。

开发历程与现状

  • 论文发布:2025年2月23日,LAM的学术论文在arXiv上公开,详细描述了方法论和实验结果,表明其在现有基准测试中超越了当时的最优方法。

  • 代码开源:GitHub仓库(aigc3d/LAM)提供了LAM-small(基于VFHQ数据集训练)和LAM-large(基于更大自建数据集训练)的模型,以及安装脚本和推理代码。代码支持CUDA 11.8或12.1环境,并发布了Hugging Face和ModelScope的空间用于展示。

  • 功能扩展:项目后续更新包括音频驱动模型(Audio2Expression)和互动聊天头像SDK(OpenAvatarChat),显示其向多模态和实用化方向发展。

性能对比

详情见技术报告
在这里插入图片描述

在这里插入图片描述

看看效果

在这里插入图片描述

在这里插入图片描述

相关文献

技术报告:https://arxiv.org/pdf/2502.17796
HF在线体验地址:https://huggingface.co/spaces/3DAIGC/LAM
MS在线体验地址:https://www.modelscope.cn/studios/Damo_XR_Lab/LAM_Large_Avatar_Model
github项目地址:https://github.com/aigc3d/LAM

相关文章:

  • 怎么免费下载glb格式模型、和gltf格式文件模型,还可以在线编辑修改
  • 基础购物车功能总结
  • Python asyncio 入门实战-1
  • 高级:Redis 面试题精讲
  • 前端快速入门
  • 【C++】内存分配与释放、内存碎片、内存泄漏、栈溢出
  • 大模型应用开发SpringAI实战-开发自己的MCP服务
  • 深入解析xDeepFM:结合压缩交互网络与深度神经网络的推荐系统新突破
  • Vue2,Vue3知识大全
  • 费马引理和罗尔定理
  • 解密CHASE-SQL和XiYan-SQL多智能体AI如何最终实现TEXT2SQL的突破
  • 嵌入式通信篇---通信频段
  • CSS 背景属性学习笔记
  • ‌JVM 调优核心步骤与参数配置‌‌
  • Keil调试STM32:未定义OS_EVENT以及停在“BEAB BKPT 0xAB”处等问题
  • Java微服务注册中心深度解析:环境隔离、分级模型与Eureka/Nacos对比
  • Vue3性能优化终极指南:编译策略、运行时调优与全链路监控
  • Dubbo(53)如何在Spring Boot中集成Dubbo?
  • 批量给dwg显示略缩图_c#插件实现(com)
  • Tkinter图像和多媒体处理
  • 中国社科院:网文市场超430亿元,作者破3000万人
  • 道指跌逾100点,特斯拉涨近5%
  • 上报集团社长李芸:发挥媒体优势,让中非民心在数字时代更深层互联互通
  • 近4小时会谈、3项联合声明、20多份双边合作文本,中俄元首今年首次面对面会晤成果颇丰
  • 首批18位!苏联籍抗日航空英烈信息更新
  • 纪念苏联伟大卫国战争胜利80周年阅兵彩排,解放军仪仗队亮相