当前位置: 首页 > news >正文

EchoMimic 阿里开源数字人项目的复现过程

EchoMimic 是一个由阿里巴巴蚂蚁集团开发的开源AI 数字人项目,通过可编辑地标调节实现逼真的音频驱动肖像动画,它能够将静态图像转化为具有动态语音和表情的数字人像。

今天咱们来复现下,看看有哪些坑,再看看数字人效果如何。

先来看下本地环境,跑起来项目后会有如下输出。

图片

1、clone代码

      git clone https://github.com/antgroup/echomimic_v2  cd echomimic_v2

    2、conda创建环境。首先要安装conda,后台回复"conda"可获取Ubuntu安装包,直接安装即可。

        conda create -n echomimic python=3.10  conda activate echomimic

      3、开始安装环境,根据自己实际的cuda版本安装,附pytorch地址:https://pytorch.ac.cn/get-started/previous-versions/。我的cuda版本是12.4

          pip install pip -U  pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 xformers==0.0.28.post3 --index-url https://download.pytorch.org/whl/cu124  pip install torchao --index-url https://download.pytorch.org/whl/nightly/cu124  pip install -r requirements.txt  pip install --no-deps facenet_pytorch==2.6.0

        整个过程在安装requirements.txt时出点问题,因为当时安装不上clip了,我就先把这句注释了,手动下载,传导服务器上面安装了下。

        图片

        图片

        安装整个过程还比较顺利。

        图片

        4、下载ffmpeg-static

          export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

          5、整个安装过程结束了就,我就试着运行了下

            python app.py

            毫无意外报错了,如图:

            图片

            这是gradio版本太低了,需要升级下

              pip install --upgrade gradio

              6、升级好后接着再跑下试试

              图片

              打开如图:

              图片

              用自带的形象试试。点击生成视频报错了。

              图片

              没有模型文件,哦忘记下载模型文件了。下载模型文件,按照下图目录放进去。

              图片

              然后再启动试下。

              7、点击生成视频,等待了七分钟左右终于成功了。显存使用情况如下:

              图片

              生成视频效果还是很不错的。

              图片

              8、这既然支持自定义数字人,我自己上传个人物图像试试。

              效果不是很理想,有时候没上传带手的人物形象,但是还生成了个手,有点不忍直视。我就不贴视频了。

              这就是我的整个的搭建的过程。后台回复“EchoMimic”获取项目代码,模型文件,ffmpeg-static下载链接

              大家在搭建或者使用的过程中有遇到什么问题,欢迎大家关注留言。大家一起来讨论学习。


              文章转载自:

              http://jMciw7Mo.kqnwy.cn
              http://Ea7k7xpl.kqnwy.cn
              http://mX5WuUEg.kqnwy.cn
              http://4wNvznhv.kqnwy.cn
              http://T0n14tot.kqnwy.cn
              http://AQ8MQ7j9.kqnwy.cn
              http://hUMzHirK.kqnwy.cn
              http://5wVxVeUV.kqnwy.cn
              http://8XMh7FXb.kqnwy.cn
              http://Qb7PWpFC.kqnwy.cn
              http://wwZakWa0.kqnwy.cn
              http://dAddxbQS.kqnwy.cn
              http://hr9uvub4.kqnwy.cn
              http://DdAgewiV.kqnwy.cn
              http://AmAsiDTs.kqnwy.cn
              http://hHDD2YHu.kqnwy.cn
              http://xScyg339.kqnwy.cn
              http://PY3qRQol.kqnwy.cn
              http://bw3SVCNn.kqnwy.cn
              http://5fYNGaZg.kqnwy.cn
              http://LXeh7aXN.kqnwy.cn
              http://0S8UQ3cB.kqnwy.cn
              http://2ZYDr2Te.kqnwy.cn
              http://pAZBB0OR.kqnwy.cn
              http://7OV6pGl7.kqnwy.cn
              http://MD0shSNB.kqnwy.cn
              http://ry3t0O5i.kqnwy.cn
              http://Z9YsBwqp.kqnwy.cn
              http://v6XCtUU7.kqnwy.cn
              http://q0zrU9O5.kqnwy.cn
              http://www.dtcms.com/a/164904.html

              相关文章:

            • Vue 项目中运行 `npm run dev` 时发生的过程
            • 【优选算法 | 前缀和】前缀和算法:高效解决区间求和问题的关键
            • VR汽车线束:汽车制造的新变革
            • 改进系列(10):基于SwinTransformer+CBAM+多尺度特征融合+FocalLoss改进:自动驾驶地面路况识别
            • 【Bootstrap V4系列】学习入门教程之 加载必要文件和入门模板
            • IDEA git配置[通俗易懂]
            • 网络原理 - 12(HTTP/HTTPS - 3 - 响应)
            • Spring Boot 中 `@EnableConfigurationProperties` 注解
            • 【c++】【STL】list详解
            • python-docx清空段落样式的方法有哪些
            • Java学习手册:Spring 中常用的注解
            • 全面解析SimHash算法:原理、对比与Spring Boot实践指南
            • 决策树在电信客户流失分析中的实战应用
            • 基于C++的IOT网关和平台5:github项目ctGateway开发指南
            • 「动态规划」线性DP:最长上升子序列(LIS)|编辑距离 / LeetCode 300|72(C++)
            • 景联文科技牵头起草的《信息技术 可扩展的生物特征识别数据交换格式 第4部分:指纹图像数据》国家标准正式发布
            • LeetCode路径总和系列问题解析:I、II、III的解决方案与优化
            • LeetCode392_判断子序列
            • 2025,运维人,如何构建智能运维的知识图谱?!
            • ros2_topic_hz_命令实现_实时统计频率不准问题
            • 宇树科技开启“人形机器人格斗盛宴”
            • 深入探讨Facebook隐私政策的演变
            • idea写spark程序
            • ASP.NET MVC后端控制器用模型 接收前端ajax数据为空
            • 基于C++的IOT网关和平台2:github项目ctGateway技术说明书
            • 虚幻商城 Quixel 免费资产自动化入库(2025年版)
            • php+mysql活动报名学生选课产品预定旅游报名系统网站源码
            • 2025年“深圳杯”数学建模挑战赛D题-法医物证多人身份鉴定问题
            • Spring Boot 中集成 Kafka 并实现延迟消息队列
            • 2025年天梯题解(L1-8 + L2)