当前位置：首页 > news >正文

畅游Diffusion数字人(21)：基于Wan2.1的音频驱动数字人FantasyTalking

news 2025/10/11 12:01:49

畅游Diffusion数字人(0)：专栏文章导航

前言：AI数字人是目前视觉AIGC最有希望大规模落地的场景之一。现阶段的商业工具，如字节的OminiHuman-1(即梦大师版)、快手的可灵对口型，虽然效果不错，但是收费昂贵。而开源解决方案，如Hallo3、Sonic，效果与商业工具仍存在不小差距。FantasyTalking是一个基于Wan2.1的对口型工作，相比之前的开源方案在效果上进步显著。

目录

效果速览

原理简介

两阶段音频-视觉对齐

身份保持

运动强度调节

论文和代码

效果速览

可以去原始项目主页观看视频：

http://www.dtcms.com/a/119695.html

相关文章：

wordpress 利用 All-in-One WP Migration全站转移

蓝桥杯第 28 场蓝桥入门赛

Java 进阶-全面解析

CPT208 Human-Centric Computing 人机交互 Pt.2 Prototype（原型）

算力驱动未来：从边缘计算到高阶AI的算力革命

嵌入式笔试（一）

Web应用权限绕过与横向移动

【用Cursor 进行Coding 】

LU分解原理与C++实现：从理论到实践

NO.76十六届蓝桥杯备战|数据结构-单调栈|发射站|Largest Rectangle in a Histogram(C++)

欧税通香港分公司办公室正式乔迁至海港城！

Dify平台

企业级防火墙与NAT网关配置

SCimilarity：对人类相似细胞进行可扩展搜索的细胞图谱基础模型

软件反模式全解手册（26种核心模式详解）

【AI提示词】决策专家

reid查找余弦相似度计算修正(二)

python-64-前后端分离之图书管理系统的Vue前端

面向对象(OOP)

跨浏览器 Tab 通信工具-emit/on 风格 API（仿 mitt）

【Unity】Unity Transform缩放控制教程：实现3D模型缩放交互，支持按钮/鼠标/手势操作

Python 快速搭建一个小型的小行星轨道预测模型 Demo

裴蜀定理扩展欧几里得定理

ssh密钥连接远程服务器并用scp传输文件

QAI AppBuilder 快速上手(8): 图像修复应用实例2

网络带宽测速工具选择指南iperf3 nttcp tcpburn jperf使用详解

Vue 3 的＜Teleport＞功能与用法

代码随想录算法训练营第十二天

【ES系列】Elasticsearch从入门到精通保姆级教程 | 启篇

Java9新特性