当前位置：首页 > news >正文

【读代码】最新端侧TTS模型NeuTTS-Air

news 2025/11/17 7:27:19

在这里插入图片描述

摘要

NeuTTS Air （https://github.com/neuphonic/neutts-air）是一个面向“实时、可部署到设备”的 TTS 解决方案，其核心是：使用一个小型 LLM（0.5B backbone，如 Qwen 0.5B / Qwen2.5 0.5B）负责将文本与语音特征（以 token 化的 codec codes）进行序列生成，再通过高效的神经音频 codec（NeuCodec）将离散 code 解码为波形。此架构结合了即时语音克隆、低延迟流式合成与轻量化量化模型（GGUF），适配边缘设备。

1 基本结构

与一般TTS方案建模思路不同，NeuTTS Air将 TTS 视作一个序列生成问题（文本->“语音 token 序列”）而非直接回归波形/梅尔谱，带来更强的多模态条件建模能力（参考音频、音素、speaker/emotion 标签等均可拼接为 prompt）。

NeuTTS Air 的关键组件与数据流如下：

Phonemizer：将输入文本（及参考文本）转成音素序列（使用 phonemizer.backend.EspeakBackend）。
Prompt 模板（Chat 风格）：将音素（text）与参考音频对应的 codec tokens 拼接到 prompt，使 LLM 以“用户-助手”对话方式生成后续的“语音 t

查看全文

http://www.dtcms.com/a/618193.html