当前位置：首页 > news >正文

EchoMimic 阿里开源数字人项目的复现过程

news 2025/11/2 0:57:51

EchoMimic 是一个由阿里巴巴蚂蚁集团开发的开源AI 数字人项目，通过可编辑地标调节实现逼真的音频驱动肖像动画，它能够将静态图像转化为具有动态语音和表情的数字人像。

今天咱们来复现下，看看有哪些坑，再看看数字人效果如何。

先来看下本地环境，跑起来项目后会有如下输出。

1、clone代码

  git clone https://github.com/antgroup/echomimic_v2  cd echomimic_v2

2、conda创建环境。首先要安装conda,后台回复"conda"可获取Ubuntu安装包，直接安装即可。

  conda create -n echomimic python=3.10  conda activate echomimic

3、开始安装环境，根据自己实际的cuda版本安装，附pytorch地址：https://pytorch.ac.cn/get-started/previous-versions/。我的cuda版本是12.4

  pip install pip -U  pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124  pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124  pip install -r requirements.txt  pip install --no-deps facenet_pytorch==2.6.0

整个过程在安装requirements.txt时出点问题，因为当时安装不上clip了，我就先把这句注释了，手动下载，传导服务器上面安装了下。

安装整个过程还比较顺利。

4、下载ffmpeg-static

export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

5、整个安装过程结束了就，我就试着运行了下

python app.py

毫无意外报错了，如图：

这是gradio版本太低了，需要升级下

pip install --upgrade gradio

6、升级好后接着再跑下试试

打开如图：

用自带的形象试试。点击生成视频报错了。

没有模型文件，哦忘记下载模型文件了。下载模型文件，按照下图目录放进去。

然后再启动试下。

7、点击生成视频，等待了七分钟左右终于成功了。显存使用情况如下：

生成视频效果还是很不错的。

8、这既然支持自定义数字人，我自己上传个人物图像试试。

效果不是很理想，有时候没上传带手的人物形象，但是还生成了个手，有点不忍直视。我就不贴视频了。

这就是我的整个的搭建的过程。后台回复“EchoMimic”获取项目代码，模型文件，ffmpeg-static下载链接

大家在搭建或者使用的过程中有遇到什么问题，欢迎大家关注留言。大家一起来讨论学习。

查看全文

http://www.dtcms.com/a/164904.html

Vue 项目中运行 `npm run dev` 时发生的过程

【优选算法 | 前缀和】前缀和算法：高效解决区间求和问题的关键

VR汽车线束：汽车制造的新变革

改进系列（10）：基于SwinTransformer+CBAM+多尺度特征融合+FocalLoss改进：自动驾驶地面路况识别

【Bootstrap V4系列】学习入门教程之加载必要文件和入门模板

IDEA git配置[通俗易懂]

网络原理 - 12（HTTP/HTTPS - 3 - 响应）

Spring Boot 中 `@EnableConfigurationProperties` 注解

【c++】【STL】list详解

python-docx清空段落样式的方法有哪些

Java学习手册：Spring 中常用的注解

全面解析SimHash算法：原理、对比与Spring Boot实践指南

决策树在电信客户流失分析中的实战应用

基于C++的IOT网关和平台5：github项目ctGateway开发指南

「动态规划」线性DP：最长上升子序列（LIS）|编辑距离 / LeetCode 300|72（C++）

景联文科技牵头起草的《信息技术可扩展的生物特征识别数据交换格式第4部分：指纹图像数据》国家标准正式发布

LeetCode路径总和系列问题解析：I、II、III的解决方案与优化

LeetCode392_判断子序列

2025,运维人，如何构建智能运维的知识图谱？！

ros2_topic_hz_命令实现_实时统计频率不准问题

宇树科技开启“人形机器人格斗盛宴”

深入探讨Facebook隐私政策的演变

idea写spark程序

ASP.NET MVC后端控制器用模型接收前端ajax数据为空

基于C++的IOT网关和平台2：github项目ctGateway技术说明书

虚幻商城 Quixel 免费资产自动化入库（2025年版）

php+mysql活动报名学生选课产品预定旅游报名系统网站源码

2025年“深圳杯”数学建模挑战赛D题-法医物证多人身份鉴定问题

Spring Boot 中集成 Kafka 并实现延迟消息队列

2025年天梯题解（L1-8 + L2）

相关文章：