【读代码】最新端侧TTS模型NeuTTS-Air

摘要
NeuTTS Air (https://github.com/neuphonic/neutts-air)是一个面向“实时、可部署到设备”的 TTS 解决方案,其核心是:使用一个小型 LLM(0.5B backbone,如 Qwen 0.5B / Qwen2.5 0.5B)负责将文本与语音特征(以 token 化的 codec codes)进行序列生成,再通过高效的神经音频 codec(NeuCodec)将离散 code 解码为波形。此架构结合了即时语音克隆、低延迟流式合成与轻量化量化模型(GGUF),适配边缘设备。
1 基本结构
与一般TTS方案建模思路不同,NeuTTS Air将 TTS 视作一个序列生成问题(文本->“语音 token 序列”)而非直接回归波形/梅尔谱,带来更强的多模态条件建模能力(参考音频、音素、speaker/emotion 标签等均可拼接为 prompt)。
NeuTTS Air 的关键组件与数据流如下:
- Phonemizer:将输入文本(及参考文本)转成音素序列(使用
phonemizer.backend.EspeakBackend)。 - Prompt 模板(Chat 风格):将音素(text)与参考音频对应的 codec tokens 拼接到 prompt,使 LLM 以“用户-助手”对话方式生成后续的“语音 t
