当前位置：首页 > news >正文

沐言智语开源Muyan-TTS模型，词错率、语音质量评分都处于开源模型的一线水平，推理速度相当快～

news 2025/7/4 15:26:30

项目背景

在这里插入图片描述

Muyan-TTS 的开发背景源于对现有LLM-based TTS模型的局限性的认识。研究表明，这些模型通常缺乏开源的训练代码和高效的推理加速框架，限制了其可访问性和适应性。此外，播客作为一种高需求的语音交互应用，缺乏专门优化的TTS模型。为此，Muyan-TTS 团队在50,000美元的预算内开发了一个开源、可训练的TTS模型，特别针对播客场景设计。

开发目标

提供一个开源的TTS模型，支持社区访问和改进。
实现零样本TTS合成，即无需额外训练即可生成高质量语音。
支持说话人适应，仅需几十分钟目标语音数据即可微调模型，适合个性化需求。
优化播客场景下的语音自然度和表达力。

数据基础

在这里插入图片描述

团队收集了超过150,000小时的多语言原始音频数据，通过多阶段数据处理流程筛选出超过100,000小时的高质量播客音频。
数据清洗包括使用Whisper和FunASR进行自动语音识别（ASR）转录，并通过MOS（Mean Opinion Score）和NISQA（Non-Intrusive Speech Quality Assessment）评分，确保数据质量（MOS > 3.8）。
数据处理耗费60,000 GPU小时，使用NVIDIA A10 GPU，成本约为30,000美元。

预算与成本

在这里插入图片描述

总预算为50,000美元，但实际总成本约为50,540美元，包括数据处理、LLM预训练和解码器训练的费用。
训练总计耗费约80,540个GPU小时，展示了在有限资源下开发高性能TTS模型的可能性。

模型结构

Muyan-TTS 的模型结构基于GPT-SoVITS框架，但进行了关键改进，以适应播客场景的需求。

总体框架

在这里插入图片描述

Muyan-TTS 整合了大型语言模型（LLM）和语音合成解码器，分为语义建模和音素建模两个部分。
LLM组件：使用预训练的Llama-3.2-3B，替换了传统的自回归（AR）模型，负责文本的语义理解和上下文建模。
音频令牌化：音频通过GPT-SoVITS的音频令牌化技术量化，文本使用LLM的令牌化器处理，确保文本和音频表示的对齐。
解码器：采用基于VITS（Variational Inference for Text-to-Speech）的解码器，而不是流匹配模型。VITS解码器具有图形到音素（G2P）的特性，提供结构化的音素建模，减少幻觉并提高发音准确性。

训练流程

LLM预训练

在扩展后的词汇表上对Llama-3.2-3B进行无监督预训练，词汇表包括1024个音频令牌和一个特殊结束令牌。
训练持续15个epoch，学习率为1e-4，耗时10天，使用80个NVIDIA A100（80GB，NVLink）GPU，成本约为19,200美元。

LLM监督微调（说话人适应）

使用几十分钟到几个小时的单一说话人数据进行监督微调，持续10个epoch，学习率为1e-5。
每个小时的语音数据需要15分钟的训练时间，使用8个NVIDIA A100（40G，PCIe）GPU。

解码器训练

对SoVITS解码器在10,000小时的高质量播客音频（MOS > 4.5）上进行微调，持续8个epoch，耗时1周。
使用8个NVIDIA A100（80GB，NVLink）GPU，成本约为1,340美元。

推理优化

Muyan-TTS 使用vLLM（一个高效的LLM推理框架）进行内存管理，实现了快速的语音合成。
模型的合成速度比率（r）为0.33，是比较模型中最快的，确保高效的推理性能。

沐言智语开源Muyan-TTS模型，词错率、语音质量评分都处于开源模型的一线水平，推理速度相当快～

项目背景

开发目标

数据基础

预算与成本

模型结构

总体框架

训练流程

LLM预训练

LLM监督微调（说话人适应）

解码器训练

推理优化

训练成本明细

性能对比

看看效果

相关文献

相关文章：