当前位置：首页 > news >正文

支持零样本和少样本的文本到语音48k star的配音工具：GPT-SoVITS-WebUI

news 2025/7/6 11:53:31

官网：RVC-Boss/GPT-SoVITS: 1 min voice data can also be used to train a good TTS model! (few shot voice cloning)

用户手册：GPT-SoVITS指南

功能

零样本文本到语音 (TTS): 输入 5 秒的声音样本, 即刻体验文本到语音转换.
少样本 TTS: 仅需 1 分钟的训练数据即可微调模型, 提升声音相似度和真实感.
跨语言支持: 支持与训练数据集不同语言的推理, 目前支持英语、日语、韩语、粤语和中文.
WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注, 协助初学者创建训练数据集和 GPT/SoVITS 模型.

可以直接在这里体验一下：AI Hobbyist TTS

只需要上传一段3-10秒的wav录音，即可进行声音的克隆。

安装

官方提供了一些非常易操作的软件包，方便用户直接使用。

咱们还是使用常规的安装方法

安装lib库

sudo apt install ffmpeg
sudo apt install libsox-dev

下载源码

https://github.com/RVC-Boss/GPT-SoVITS
cd GPT-SoVITS

安装python库

pip install -r extra-req.txt --no-deps
pip install -r requirements.txt

下载预训练模型

从huggingface下载：https://huggingface.co/lj1995/GPT-SoVITS

启动推理

python GPT_SoVITS/inference_webui.py <language(optional)>
# 或
python webui.py

具体细节还需要再学习实践一下。

查看全文

http://www.dtcms.com/a/267526.html

完成ssl不安全警告

DQL-6-分页查询

Redis的编译安装

PVE DDNS IPV6

超详细yolo8/11-detect目标检测全流程概述：配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解

Altium Designer使用教程第一章（Altium Designer工程与窗口）

ESXi 8.0 SATA硬盘直通

python-字符串

量化可复用的UI评审标准(试验稿)

OPENPPP2 VDNS 核心域模块深度解析

电源管理芯片（PMIC）和电池管理芯片(BMIC)又是什么？ING

webpack+vite前端构建工具 -11实战中的配置技巧

合肥工会入会的注意事项和常见问答

springBoot接口层时间参数JSON序列化问题，兼容处理

Modbus_TCP_V4 客户端

Day52

人工智能-基础篇-18-什么是RAG(检索增强生成：知识库+向量化技术+大语言模型LLM整合的技术框架)

ES6-in 的用法

Apollo自动驾驶系统中Planning（路径规划）模块的架构设计和核心逻辑

leetcode86.分隔链表

1. 两数之和 (leetcode)

【网络】Linux 内核优化实战 - net.ipv4.tcp_timestamps

【Docker基础】Docker数据卷管理：docker volume prune及其参数详解

CSS 文字浮雕效果：巧用 text-shadow 实现 3D 立体文字

一体化步进伺服电机在无人机扫地机器人中的应用案例

隐马尔可夫模型：语音识别系统的时序解码引擎

写传播和写策略

【Linux】常用基本指令

量化交易中的隐藏模式识别：基于潜在高斯混合模型的机会挖掘

130.【C语言】数据结构之基数排序

功能

安装

安装lib库

下载源码

安装python库

下载预训练模型

启动推理

相关文章：