当前位置: 首页 > news >正文

4.1-4 SadTalker数字人 语音和嘴唇对应的方案

前言:

SadTalker是一个强大的数字人相关的RA/SD插件。它本身是一个非常独立的产品。你只需要提供一段视频,一段文字,简单的配置,在RA/SD中简单的生成即可。

视频中人物的嘴唇很好的应对了你要发声的文字内容。效果很赞。仔细学习后体验下吧。

知识点:

  1. SadTalker
  2. 数字人
  3. 唇音联动

插件介绍

https://sadtalker.github.io/的论文和很多DEMO

主要是数字人相关的强大插件。

官方地址:

GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

本地地址:

第一步

RA的扩展中安装自URL即可。

GitHub - OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

如果出现失败,多数是VPN穿墙的问题。

重启SD 的webui

第二步 

下载模型。放到SD的这些目录下。2选1 即可。

stable-diffusion-webui/models/SadTalker or

 stable-diffusion-webui/extensions/SadTalker/checkpoints/   代码中用这个位置。我们就放这里

注意gfpgan的目录和checkpoints同级别

奇怪的是。这个位置也要放一份GFPGAN – 不然处理过程中还是会去下载的。

第三步

选择一个照片。也可以由SD生成一个。选择一个音频文件。

音频文件格式支持这些

在SadTalker的界面上简单配置下,点击【Generate】

顺利的话COnsole中输出这样的 (下面第一张图还是在下载GFPGAN的模型么,因为我们之前没放这个位置)

如果遇到FFMPEG的错误问题

提示没有安装ffmpeg。

用pip install ffmpeg还没有解决问题。

就用我们编译好的包。然后PATH指向,重启电脑即可。

相关文章:

  • 深入理解【二分法】:从基础概念到实际应用
  • Android Listen AI 文字转语音-v2.0.1-开心版
  • 基于大模型的腮腺多形性腺瘤全周期诊疗方案研究报告
  • 网络安全应急入门到实战
  • 瑞萨RA系列使用JLink RTT Viewer输出调试信息
  • 【java面型对象进阶】------继承实例
  • 【FPGA开发】FPGA点亮LED灯(增加按键暂停恢复/复位操作)
  • MySQL查询某个字段的几百个值,是否存在于表中,并列出不存在表中的值(不用再过滤)
  • Linux驱动学习笔记(四)
  • 【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
  • 前端Html5 dragenter面试题及参考答案
  • CompletableFuture详解
  • 关于android开发中,sd卡的读写权限的处理步骤和踩坑
  • dify+deepseek联网搜索:免费开源搜索引擎Searxng使用(让你的大模型也拥有联网的功能)
  • Elasticsearch8.17 生产集群使用优化
  • 【AIGC】Win10系统极速部署Docker+Ragflow+Dify
  • SAP-ABAP:AP屏幕增强技术手册-详解
  • 5.2 Alpha to coverage in Depth
  • 在Ubuntu上安装MEAN Stack的4个步骤
  • go面向对象编程三大特性,封装、继承和多态
  • 国新办发布《关于新冠疫情防控与病毒溯源的中方行动和立场》白皮书
  • 东风着陆场做好各项搜救准备,迎接神舟十九号航天员天外归来
  • 郭继孚被撤销全国政协委员资格,此前为北京交通发展研究院长
  • 北京朝阳涉住宅组团地块126亿元成交
  • 俄乌战火不熄,特朗普在梵蒂冈与泽连斯基会晤后口风突变
  • 伊朗南部港口火势蔓延,部分集装箱再次发生爆炸