当前位置：首页 > news >正文

GPT-SoVITS更新V3 win整合包

news 2025/10/31 16:25:36

GPT-SoVITS 是由社区开发者联合打造的开源语音生成框架，其创新性地融合了GPT语言模型与SoVITS（Singing Voice Inference and Timbre Synthesis）语音合成技术，实现了仅需5秒语音样本即可生成高保真目标音色的突破。该项目凭借其开箱即用的特性，已成为AIGC语音领域的热门工具。

功能：

零样本文本到语音（TTS）： 输入 5 秒的声音样本，即刻体验文本到语音转换。
少样本 TTS： 仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。
跨语言支持： 支持与训练数据集不同语言的推理，目前支持英语、日语、韩语、粤语和中文。
WebUI 工具： 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

GPT-SoVITS-V3 win整合包下载:

https://pan.quark.cn/s/f3d782bea7ee

GPT-SoVITS-V3新增特点：

训练集增加至7k小时 (MOS分音质过滤、标点停顿校验)
s2结构变更为：shortcut Conditional Flow Matching Diffusion Transformers (shortcut-CFM-DiT)。由于s2占整体延时比例太低，s2变复杂对于整体耗时影响不大。【说人话就是s2变复杂了但训练轮数变少了，整体训练时长不变】s2原理的变更（基于参考音频扩散补全）导致音色相似度大幅提升。由于没用端到端合成，使用了开源的24k的BigVGANv2参数从mel谱得到波形。
s1结构不变，更新了一版参数

	语种主持（可跨语种合成）	GPT训练集时长	SoVITS训练集时长	推理速度	参数量	文本前端	功能
V1（2024年1月发布）	中日英	2k小时	2k小时	baseline	90M+77M	baseline	baseline
V2（2024年8月更新）	中日英韩粤	2.5k小时	vq encoder2k小时，剩余5k小时	翻倍	90M+77M	中日英逻辑均有增强	新增语速调节，无参考文本模式，更好的混合语种切分，音色混合
V3（2025年2月更新）	中日英韩粤	7k小时	vq encoder2k小时，剩余7k小时	约等于v2	330M+77M	不变	大幅增加zero shot相似度；情绪表达、微调性能提升

⚠️在开始之前，你必须同意并遵循使用规约，在任何音视频网站发布基于 GPT-SoVITS 项目或本整合包制作的作品时，需要对GPT-SOVITS工具进行署名，否则违反开源协议。

http://www.dtcms.com/a/27512.html

相关文章：

iOS进程增加内存上限的接口

C#发送邮件

为什么Agent会失败？2025年对AI的预测

网络安全中的机器学习

Java 反射

docker 部署JAR

ES10中Object.fromEntries()，trimStart() ,trimend()的使用方法和使用场景例子

三、linux字符驱动详解

算法——位运算

零基础学QT、C++（三）魔改QT组件库（付源码）

第42天：Web开发-JavaEE应用Servlet技术路由配置生命周期过滤器Filter监听器Listen

C#```

Server-Sent Events（SSE）协议详解

千峰React:组件使用（1）

基于Spring Boot的售楼管理系统设计与实现（LW+源码+讲解）

Spring Cloud中如何使用Eureka：超详细指南

产业园区数字孪生规划方案（40页PPT）

嵌入式学习（18）---Linux文件编程中的进程

代码随想录算法训练营第六天| 242.有效的字母异位词、349. 两个数组的交集、202. 快乐数、1. 两数之和

《Kettle保姆级教学-性能调优，抽取速率提升800%》

java网络编程02 - HTTP、HTTPS详解

若依-@Excel新增注解numberFormat

【SFRA】笔记

【可实战】Linux 常用统计命令：排序sort、去重uniq、统计wc

idea连接gitee完整教程

精通特征选择：过滤器方法提升机器学习模型的技巧

[ 云计算 | AWS 实践 ] Java 如何重命名 Amazon S3 中的文件和文件夹

docker中pull hello-world的时候出现报错

javaSE学习笔记20-线程（thread）的状态以及控制

Day6 25/2/19 WED