当前位置: 首页 > news >正文

在Ubuntu18.04下搭建SadTalker让图片开口说话

        最近学习一些数字人的环境搭建,参考了两个博主的内容(具体参见文末),完成了在Ubuntu18.04下的SadTalker的搭建,选择SadTalker的主要原因是它对硬件的要求不高。下面是对过程的一些梳理,自己也重新学习下。初次尝试由于版本等问题花了一些时间,选择虚拟机搭建的优势是搭建错了可以删除重来,在实体机下搭建可能会引入一些环境问题

1.环境准备

使用VMware WorkStation 16Pro和Ubuntu18.04桌面板,这里默认已经搭建完毕,这里我选择的虚拟机的配置如下(处理器4,内存8G);

(测试过,选择处理器2,内存4G也能使用,但生成视频时时间更长,面部增强版无法完成)

2.conda管理工具

下载conda:

https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh

将下载的可执行文件放到ubuntu中,此处放在桌面,赋予权限后,直接运行,如下图:

搭建过程回车和选择yes即可

搭建完后,执行初始化,配置环境变量

cd ~/anaconda3/bin
./conda init bash

执行后,会在当前用户的bash配置~/.bashrc下如下内容,本质是配置环境变量:

运行语句,让环境变量生效:

source ~/.bashrc

3.SadTalker安装配置

(1)下载源码:

(2)为Sadtalker创建独立的环境,安装对应的工具,需要安装哪些,可以参考SadTalker源码说明

官网参考地址:

GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

关键内容如下:

git clone https://github.com/OpenTalker/SadTalker.gitcd SadTalkerconda create -n sadtalker python=3.8conda activate sadtalkerpip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113conda install ffmpegpip install -r requirements.txt### Coqui TTS is optional for gradio demo. ### pip install TTS

运行的过程如下:

看到如下输出:

激活:

安装ffmpeg:

安装依赖:

下载 gfpgan.zip 和 sadtalker_checkpoints_v0.0.2.zip,将它们解压后,对应的gfpgan和checkpoints放在~/SadTalker目录下,如下图所示:

下载参考文末其他博客

4.测试

在SadTalker源码下,默认有音频文件和图片,执行如下所示:

运行过程对CPU和内存监控如下:

完成后,对应视频文件如下:

视频播放如下:

5.参考

让照片人物开口说话,SadTalker 安装及使用(避坑指南)-CSDN博客

数字人生成指南--linux centos SadTalker使用指南,超级详细_sadtalker linux-CSDN博客

http://www.dtcms.com/a/206525.html

相关文章:

  • Python爬虫实战:研究Crawley 框架相关技术
  • MIPI摄像头linux驱动开发步骤及说明
  • SpringCloud Alibaba微服务-- Sentinel的使用(笔记)
  • 【部署】如何离线环境创建docker容器执行python命令行程序
  • MongoDB大数据量的优化——mongoTemplate.stream()方法使用
  • 安装openresty使用nginx+lua,openresty使用jwt解密
  • 第33节:迁移学习与模型微调策略
  • 在mobaxterm下面执行shell脚本报错
  • GIM发布新版本了 (附rust CLI制作brew bottle流程)
  • Security
  • 基于python,html,echart,php,mysql,在线实时监控入侵检测系统
  • 6.12.有向无环图描述表达式
  • Python实现Web请求与响应
  • Antd中Upload组件封装及使用:
  • 矩阵短剧系统:如何用1个后台管理100+小程序?技术解析与实战应用
  • CUDA加速的线性代数求解器库cuSOLVER
  • 基于系统整合的WordPress个性化配置方法深度解析:从需求分析到实现过程
  • LeetCode[222]完全二叉树的节点个数
  • 水库大坝、坝肩混凝土面板变形及岸坡位移多断面多测点安全监测新途径——变焦视觉位移监测仪
  • 【优质会议推荐】2025年遥感与航天航空国际会议(IACRSA 2025)
  • `Release`模式下 编译器优化对 gRPC 远程调用的影响 导致堆栈非法访问
  • leetcode 438. 找到字符串中所有字母异位词
  • Axure项目实战:智慧运输平台后台管理端-运单管理
  • 古诗词鉴赏代码
  • 力扣.H指数力扣.字母异位词力扣.289生命游戏力扣452.用最小数量的箭引爆气球力扣.86分隔链表力扣.轮转数组
  • vue vite textarea标签按下Shift+Enter 换行输入,只按Enter则提交的实现思路
  • MRI学习笔记-表征相似性分析(Representational Similarity Analysis, RSA)
  • RNN神经网络
  • 大模型Pre-Training实战解析:实现Qwen3增量预训练
  • Python实现PDB文件预处理