当前位置: 首页 > news >正文

畅游Diffusion数字人(21):基于Wan2.1的音频驱动数字人FantasyTalking

畅游Diffusion数字人(0):专栏文章导航

前言:AI数字人是目前视觉AIGC最有希望大规模落地的场景之一。现阶段的商业工具,如字节的OminiHuman-1(即梦大师版)、快手的可灵对口型,虽然效果不错,但是收费昂贵。而开源解决方案,如Hallo3、Sonic,效果与商业工具仍存在不小差距。FantasyTalking是一个基于Wan2.1的对口型工作,相比之前的开源方案在效果上进步显著。

目录

效果速览

原理简介

两阶段音频-视觉对齐

身份保持

运动强度调节

论文和代码


效果速览

可以去原始项目主页观看视频:

相关文章:

  • wordpress 利用 All-in-One WP Migration全站转移
  • 蓝桥杯 第 28 场 蓝桥入门赛
  • Java 进阶-全面解析
  • CPT208 Human-Centric Computing 人机交互 Pt.2 Prototype(原型)
  • 算力驱动未来:从边缘计算到高阶AI的算力革命
  • 嵌入式笔试(一)
  • Web应用权限绕过与横向移动
  • 【用Cursor 进行Coding 】
  • LU分解原理与C++实现:从理论到实践
  • NO.76十六届蓝桥杯备战|数据结构-单调栈|发射站|Largest Rectangle in a Histogram(C++)
  • 欧税通香港分公司办公室正式乔迁至海港城!
  • Dify平台
  • 企业级防火墙与NAT网关配置
  • SCimilarity:对人类相似细胞进行可扩展搜索的细胞图谱基础模型
  • 软件反模式全解手册(26种核心模式详解)
  • 【AI提示词】决策专家
  • reid查找余弦相似度计算修正(二)
  • python-64-前后端分离之图书管理系统的Vue前端
  • 面向对象(OOP)
  • 跨浏览器 Tab 通信工具-emit/on 风格 API(仿 mitt)