当前位置: 首页 > news >正文

GPT-SoVITS更新V3 win整合包

GPT-SoVITS 是由社区开发者联合打造的开源语音生成框架,其创新性地融合了GPT语言模型与SoVITS(Singing Voice Inference and Timbre Synthesis)语音合成技术,实现了仅需5秒语音样本即可生成高保真目标音色的突破。该项目凭借其开箱即用的特性,已成为AIGC语音领域的热门工具。

功能:

  1. 零样本文本到语音(TTS): 输入 5 秒的声音样本,即刻体验文本到语音转换。

  2. 少样本 TTS: 仅需 1 分钟的训练数据即可微调模型,提升声音相似度和真实感。

  3. 跨语言支持: 支持与训练数据集不同语言的推理,目前支持英语、日语、韩语、粤语和中文。

  4. WebUI 工具: 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注,协助初学者创建训练数据集和 GPT/SoVITS 模型。

GPT-SoVITS-V3 win整合包下载:

https://pan.quark.cn/s/f3d782bea7ee

GPT-SoVITS-V3新增特点:

  • 训练集增加至7k小时 (MOS分音质过滤、标点停顿校验)

  • s2结构变更为:shortcut Conditional Flow Matching Diffusion Transformers (shortcut-CFM-DiT)。由于s2占整体延时比例太低,s2变复杂对于整体耗时影响不大。【说人话就是s2变复杂了但训练轮数变少了,整体训练时长不变】s2原理的变更(基于参考音频扩散补全)导致音色相似度大幅提升。由于没用端到端合成,使用了开源的24k的BigVGANv2参数从mel谱得到波形。

  • s1结构不变,更新了一版参数

语种主持(可跨语种合成)GPT训练集时长SoVITS训练集时长推理速度参数量文本前端功能
V1(2024年1月发布)中日英2k小时2k小时baseline90M+77Mbaselinebaseline
V2(2024年8月更新)中日英韩粤2.5k小时vq encoder2k小时,剩余5k小时翻倍90M+77M中日英逻辑均有增强新增语速调节,无参考文本模式,更好的混合语种切分,音色混合
V3(2025年2月更新)中日英韩粤7k小时vq encoder2k小时,剩余7k小时约等于v2330M+77M不变大幅增加zero shot相似度;情绪表达、微调性能提升

⚠️在开始之前,你必须同意并遵循使用规约,在任何音视频网站发布基于 GPT-SoVITS 项目或本整合包制作的作品时,需要对GPT-SOVITS工具进行署名,否则违反开源协议。

相关文章:

  • iOS进程增加内存上限的接口
  • C#发送邮件
  • 为什么Agent会失败?2025年对AI的预测
  • 网络安全中的机器学习
  • Java 反射
  • docker 部署JAR
  • ES10中Object.fromEntries(),trimStart() ,trimend()的使用方法和使用场景例子
  • 三、linux字符驱动详解
  • 算法——位运算
  • 零基础学QT、C++(三)魔改QT组件库(付源码)
  • 第42天:Web开发-JavaEE应用Servlet技术路由配置生命周期过滤器Filter监听器Listen
  • C#```
  • Server-Sent Events(SSE)协议详解
  • 千峰React:组件使用(1)
  • 基于Spring Boot的售楼管理系统设计与实现(LW+源码+讲解)
  • Spring Cloud中如何使用Eureka:超详细指南
  • 产业园区数字孪生规划方案(40页PPT)
  • 嵌入式学习(18)---Linux文件编程中的进程
  • 代码随想录算法训练营第六天| 242.有效的字母异位词 、349. 两个数组的交集、202. 快乐数 、1. 两数之和
  • 《Kettle保姆级教学-性能调优,抽取速率提升800%》
  • 少数人的奢侈品还是所有人的必需品:我们如何解构创造力?
  • 单阶段遭遇零封偶像奥沙利文,赵心童要让丁俊晖预言成真
  • 高速变道致连环车祸,白车“骑”隔离栏压住另一车,交警回应
  • 刘洪洁已任六安市委副书记、市政府党组书记
  • 西湖大学2025年上海市综合评价招生简章发布
  • 净海护渔,中国海警局直属第一局开展伏季休渔普法宣传活动