当前位置: 首页 > news >正文

支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

支持零样本和少样本的文本到语音48k star的配音工具:GPT-SoVITS-WebUI

官网:RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

用户手册:GPT-SoVITS指南

功能

  1. 零样本文本到语音 (TTS): 输入 5 秒的声音样本, 即刻体验文本到语音转换.

  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.

  3. 跨语言支持: 支持与训练数据集不同语言的推理, 目前支持英语、日语、韩语、粤语和中文.

  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注, 协助初学者创建训练数据集和 GPT/SoVITS 模型.

可以直接在这里体验一下:AI Hobbyist TTS 

只需要上传一段3-10秒的wav录音,即可进行声音的克隆。

安装

官方提供了一些非常易操作的软件包,方便用户直接使用。

咱们还是使用常规的安装方法

安装lib库

sudo apt install ffmpeg
sudo apt install libsox-dev

下载源码

https://github.com/RVC-Boss/GPT-SoVITS
cd GPT-SoVITS

 

安装python库

pip install -r extra-req.txt --no-deps
pip install -r requirements.txt

下载预训练模型

从huggingface下载:https://huggingface.co/lj1995/GPT-SoVITS

启动推理

python GPT_SoVITS/inference_webui.py <language(optional)>
# 或
python webui.py

 具体细节还需要再学习实践一下。

http://www.dtcms.com/a/267526.html

相关文章:

  • 完成ssl不安全警告
  • DQL-6-分页查询
  • Redis的编译安装
  • PVE DDNS IPV6
  • 超详细yolo8/11-detect目标检测全流程概述:配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解
  • Altium Designer使用教程 第一章(Altium Designer工程与窗口)
  • ESXi 8.0 SATA硬盘直通
  • python-字符串
  • 量化可复用的UI评审标准(试验稿)
  • OPENPPP2 VDNS 核心域模块深度解析
  • 电源管理芯片(PMIC) 和 电池管理芯片(BMIC)又是什么?ING
  • webpack+vite前端构建工具 -11实战中的配置技巧
  • 合肥工会入会的注意事项和常见问答
  • springBoot接口层时间参数JSON序列化问题,兼容处理
  • Modbus_TCP_V4 客户端
  • Day52
  • 人工智能-基础篇-18-什么是RAG(检索增强生成:知识库+向量化技术+大语言模型LLM整合的技术框架)
  • ES6-in 的用法
  • Apollo自动驾驶系统中Planning(路径规划)模块的架构设计和核心逻辑
  • leetcode86.分隔链表
  • 1. 两数之和 (leetcode)
  • 【网络】Linux 内核优化实战 - net.ipv4.tcp_timestamps
  • 【Docker基础】Docker数据卷管理:docker volume prune及其参数详解
  • CSS 文字浮雕效果:巧用 text-shadow 实现 3D 立体文字
  • 一体化步进伺服电机在无人机扫地机器人中的应用案例
  • 隐马尔可夫模型:语音识别系统的时序解码引擎
  • 写传播和写策略
  • 【Linux】常用基本指令
  • 量化交易中的隐藏模式识别:基于潜在高斯混合模型的机会挖掘
  • 130.【C语言】数据结构之基数排序