当前位置：首页 > news >正文

语音合成之十韵律之美：TTS如何模拟语音的节奏和语调

news 2025/7/1 20:33:07

韵律之美：TTS如何模拟语音的节奏和语调

1. 引言：韵律在语音合成中的重要性
- 1.1 追求自然的TTS：超越可懂度
- 1.2 定义韵律：语音的音乐
- 1.3 韵律为何重要：传递意义、情感与自然度
2. TTS韵律建模的基础技术
- 2.1 利用文本：语言学特征作为韵律线索
- 2.2 预测声学关联物： $F_0$ 、时长和能量估计
- 2.3 深度学习的角色：从RNN到Transformer和VAE
- 2.4 整合韵律：声学模型/声码器中的显式与隐式控制
3. 韵律建模实践：开源TTS架构剖析
- 3.1 显式预测模型
- - 3.1.1 FastSpeech 2
- 3.2 隐式与端到端模型
- - 3.2.1 Tacotron 2
  - 3.2.2 VITS (Variational Inference for TTS)
  - 3.2.3 Piper
- 3.3 高级克隆与高保真模型
- - 3.3.1 Tortoise TTS
  - 3.3.2 Coqui XTTS
- 3.4 TTS的LLM时代
- - 3.4.1 SparkTTS
  - 3.4.2 CosyVoice / CosyVoice 2
4. 增强表现力：高级韵律控制技术
- 4.1 风格迁移：学习和应用风格嵌入
- 4.2 参考音频编码：带韵律迁移的语音克隆
- 4.3 直接参数操纵：细粒度的韵律调整
- 4.4 自然语言提示：LLM驱动的风格控制
5. 评估合成韵律：指标与方法
- 5.1 客观评估：量化声学准确性
- 5.2 主观评估：听众对自然度与表现力的感知
- 5.3 局限性与上下文评估的需求
6. 总结：合成富有表现力的语音

1. 引言：韵律在语音合成中的重要性

1.1 追求自然的TTS：超越可懂度

早期的文本转语音（Text-to-Speech, TTS）系统主要关注生成可懂的语音，但这往往导致输出听起来生硬、缺乏生气，带有明显的“机器”感。随着技术的进步，现代TTS系统不再仅仅满足于让机器“说话”，而是追求生成既自然又富有表现力的语音，这使得韵律（Prosody）建模成为了核心议题。韵律赋予语音以“音乐感”或“旋律感”，使其听起来更接近人类，更具吸引力。缺乏适当韵律的合成语音听感单调、不自然，甚至机械化，严重影响用户体验和信息传达效果。
在这里插入图片描述

1.2 定义韵律：语音的音乐

韵律，也称为超音段特征（Suprasegmentals），是指语音中超越单个音素（元音和辅音）层面，通常应用于音节、词语、短语乃至整个句子序列的语音特征。它是语音的“调”与“节奏”的研究，关注这些特征如何贡献于意义的表达。韵律的主要构成要素包括：

音高/语调 (Pitch / Intonation): 指声音感知的基频（Fundamental Frequency, $F_0$ ）高低变化。语调是音高在短语或句子范围内的变化模式，对于区分陈述句和疑问句、标示焦点或重音、传达情感以及在声调语言（如汉语普通话）中区分词汇意义至关重要。例如，英语中句末语调上升通常表示疑问。
时长/节奏/语速 (Duration / Rhythm / Tempo): 指语音中各单元（音素、音节）的持续时间长度以及重读和非重读音节的模式。音节和音素的时长是构成节奏的基础。语速（Tempo）是指整体的说话速率。时长变化可以标示重音和词语或短语的边界（如句末延长）。
音量/强度/重音 (Loudness / Intensity / Stress): 指声音感知的响度或能量大小（声学强度）。音量变化可用于强调特定词语、标示信息重要性或反映情感状态（如愤怒时音量增大）。重音（Stress）是指某些音节或词语在发音时更加突出，通常通过更高的音高、更大的音量和更长的时长的组合来实现。重音可以区分词义（如英语中的 ‘record’ 名词与动词）或标示焦点。
停顿 (Pauses): 指话语内部或之间的静默片段。停顿可以用于分隔意群或句法单元、提供听者处理时间、强调重点或进行呼吸。停顿时长也可能暗示语言单元间边界的强度。
(注：音色/音质 (Timbre/Voice Quality) 有时也被纳入韵律范畴，但在TTS建模中常与核心韵律特征（音高、时长、音量）分开处理)。

1.3 韵律为何重要：传递意义、情感与自然度

韵律在口语交流中扮演着至关重要的角色，其作用远超词汇本身：

传递意义: 韵律有助于消除句法歧义（如“老张和老李的女儿”，是指老李的女儿还是两人的女儿？），区分疑问句与陈述句，标示焦点和对比，表达讽刺或挖苦等言外之意，以及在特定语言中区分词汇意义（如声调语言中的声调，重音语言中的词重音）。韵律如同一个并行的信息通道，传递着无法单从词汇层面推断的信息。
表达情感: 韵律的声学关联物（音高、音量、语速、节奏）也是表达说话人情感状态（如快乐、悲伤、愤怒、恐惧等）的关键载体。例如，更宽的音高范围和更快的语速可能与兴奋相关，而较低的音高和较慢的语速可能暗示悲伤。情感韵律与语言学韵律既有区别又相互交织。
提升自然度: 合适的韵律是使合成语音听起来自然、流畅、像人类说话的关键因素。母语者对不同交际情境下的韵律模式有着直觉性的理解。不恰当或缺失的韵律会使语音听起来单调、生硬，甚至令人困惑。韵律的节奏模式、重音位置和语调曲线共同构成了口语的流动性和音乐性，有助于听者的理解和信息处理。

1.4 核心挑战：模拟人类表达的精妙之处
尽管韵律至关重要，但在TTS系统中精确地建模和生成自然韵律面临巨大挑战：

“一对多”映射问题 (One-to-Many Mapping): 这是TTS韵律建模中最核心的难题。同一段文本，根据不同的语境、说话人意图和情感状态，可以有多种合理且自然的韵律表达方式。传统的基于回归的目标函数（如均方误差MSE）难以捕捉这种固有的多模态特性，往往倾向于生成平均化、缺乏变化的“平淡”韵律。这种现象促使TTS架构向能够建模概率分布的生成模型（如VAE、Flow、Diffusion、LLM）演进，以更好地处理韵律的内在模糊性和多样性。
上下文依赖性 (Context Dependency): 韵律的实现高度依赖于广泛的上下文信息，包括语言学上下文（词汇、句法）、语篇上下文（信息结构、话题）以及情景上下文（说话人态度、情绪、交际场景）。让模型充分理解并利用这些复杂的上下文信息来预测恰当的韵律是一个巨大的挑战，尤其是对于长文本或对话场景。视觉信息等其他模态的上下文也可能影响韵律。
精妙性与复杂性 (Subtlety and Complexity): 人类韵律涉及多个声学特征（音高、时长、强度等）之间微妙、复杂且相互作用的变化。这些特征同时编码语言结构、副语言信息（如态度）甚至非语言信息（如生理状态、情绪），使得干净地分离和建模各个因素的贡献变得异常困难。准确模拟这些复杂的相互作用对模型提出了很高的要求。
数据稀疏性 (Data Sparsity): 要捕捉人类语音表达的全部范围，需要大规模、多样化、高质量且标注丰富的语料库。然而，获取覆盖各种说话风格、情感、语言和场景的数据，特别是带有精确韵律标注的数据，成本高昂且充满挑战。数据稀疏性限制了模型学习韵律多样性的能力。

2. TTS韵律建模的基础技术

为了应对上述挑战并生成具有自然韵律的语音，TTS系统采用了多种技术手段，主要涉及从文本中提取韵律线索和利用深度学习模型预测声学特征。

2.1 利用文本：语言学特征作为韵律线索

许多TTS系统，特别是在端到端模型普及之前以及作为现代模型的一部分，会进行深入的文本分析，提取各种语言学特征，以预测后续的韵律模式。这些特征为模型提供了关于文本结构和潜在韵律模式的重要线索：

音素/音节特征 (Phonetic/Phonological Features): 包括当前音素及其上下文音素的身份、音节结构（如CV, CVC）、音节在词语或短语中的位置、以及词汇重音（lexical stress）信息。这些底层特征直接影响音素的时长和基频（ $F_0$ ）的局部变化。
词汇特征 (Lexical Features): 涉及词语本身、词性（Part-of-Speech, POS）标签（如名词、动词、形容词）及其上下文词性。词性有助于预测词语的相对重要性（prominence）和可能的短语边界。
句法特征 (Syntactic Features): 分析句子的结构，如短语边界（如名词短语、动词短语）、从句类型、句子类型（陈述句、疑问句、感叹句）等。句法结构是预测停顿位置、语调边界（intonational phrase boundaries）和句末语调（如升调或降调）的关键依据。
语义/语篇特征 (Semantic/Discourse Features): 关注更高层次的意义和信息结构，例如焦点（focus）标示、新信息与旧信息的区分、主题结构等。这些特征对于预测重音（pitch accent）的位置和强度至关重要。随着大型语言模型（LLM）的引入，TTS系统能够利用更深层次的语义理解来指导韵律生成。
ToBI (Tones and Break Indices): 一种成熟的韵律标注体系，包含音高重音（pitch accents）、短语重音（phrase accents）、边界调（boundary tones）和中断指数（break indices）等标签。可以通过训练模型从文本预测ToBI标签，然后利用这些标签来显式地指导语音合成中的语调、重音和停顿。

2.2 预测声学关联物： $F_0$ 、时长和能量估计

许多现代TTS模型，尤其是非自回归模型，采用显式预测韵律相关的声学特征作为中间步骤。这些预测器通常以文本编码器输出的隐藏状态和/或提取的语言学特征为输入。

时长预测 (Duration Prediction): 预测每个输入单元（通常是音素）对应的输出声学帧数。这是控制语音节奏和语速的核心。时长通常在对数域进行预测以简化建模。训练目标时长可以来自基于注意力的对齐（如Tacotron ）或外部强制对齐工具（如Montreal Forced Aligner (MFA)，用于FastSpeech 2 ）。为了解决“一对多”问题并模拟节奏变化，一些模型如VITS采用了随机时长预测器（Stochastic Duration Predictor），它不预测单一时长值，而是预测一个时长分布，允许在推理时采样不同的时长序列。准确的文本-语音对齐对于时长预测至关重要，无论是隐式学习（注意力）还是显式提供（强制对齐）。对齐失败会直接导致错误的节奏和语速。
音高 ( $F_0$ ) 预测 (Pitch Prediction): 估计语音的基频轮廓，对语调和情感表达至关重要。直接预测 $F_0$ 值面临挑战，因为 $F_0$ 提取本身可能存在误差（如倍频/半频错误），且 $F_0$ 轮廓变化剧烈且具有多模态特性，直接回归容易导致预测结果过于平滑。常用技术包括：预测对数 $F_0(\log F_0)$ ；使用连续小波变换（Continuous Wavelet Transform, CWT）将 $F_0$ 轮廓转换为音高谱图（pitch spectrogram），在频域进行预测，这有助于捕捉不同时间尺度的变化并缓解平滑问题；或者通过隐式方法建模音高，例如在VAE的潜在空间中表示。
能量/音量预测 (Energy/Loudness Prediction): 估计每个声学帧的能量或强度，影响感知的音量和重音。能量通常与音高和时长一起预测，作为TTS模型的条件输入。预测值通常基于短时傅里叶变换（STFT）帧的幅度计算（如L2范数）。

这些预测器的特征表示也经历了演变。早期依赖手工设计的语言学特征，后续发展到更复杂的声学表征（如CWT音高谱图），以及直接从数据中学习的潜在表征（如VAE 或自监督学习模型如HuBERT/WavLM提取的特征）。后者旨在绕过可能有问题的传统特征提取（如 $F_0$ 估计），并学习到对说话人和内容更鲁棒的韵律表征。

2.3 深度学习的角色：从RNN到Transformer和VAE

深度学习模型是现代TTS系统实现韵律建模的核心驱动力，不同的架构各有侧重：

循环神经网络 (RNNs/LSTMs/GRUs): 由于语音和文本的序列特性，RNN及其变体（如LSTM、GRU）在早期神经TTS中被广泛用于建模时间依赖关系。例如，Tacotron 2在其编码器和解码器中使用了LSTM 。LSTM也可用于构建韵律预测器。最近，基于RNN思想的RWKV架构也被应用于LLM-TTS 。
卷积神经网络 (CNNs): CNN擅长提取局部模式，并可通过堆叠或使用空洞卷积来捕捉不同范围的依赖关系，且易于并行计算。它们常被用于编码器、解码器、声码器以及时长/音高/能量预测器中。例如，FastSpeech 2的预测器就包含CNN层。早期的DeepVoice系列模型也大量使用了CNN 。
Transformer: 基于自注意力（Self-Attention）机制，Transformer能够有效建模长距离依赖关系，并且具有高度并行性，已成为许多现代TTS模型（包括编码器、解码器、预测器）的基础架构。FastSpeech 2和VITS的文本编码器都采用了Transformer 。基于LLM的TTS系统通常也使用Transformer作为其骨干网络。
变分自编码器 (VAEs): VAE是一种强大的生成模型，特别适用于学习数据的潜在表示（latent representation）并建模其分布。在TTS中，VAEs被广泛用于在无监督或半监督的方式下学习韵律或说话风格的潜在空间。通过在推理时从这个潜在空间采样，可以生成具有不同韵律变化的语音，有效应对“一对多”映射问题。VITS就是一个典型的基于VAE的TTS模型。向量量化VAE（VQ-VAE）也被用于学习离散的潜在表示。
流模型 (Flow-based Models): 如归一化流（Normalizing Flows），能够将简单的概率分布（如高斯分布）可逆地转换为复杂的数据分布。它们常被用于增强VAE潜在空间的表达能力（如VITS的先验编码器和随机时长预测器），或直接用于生成任务。流匹配（Flow Matching）是另一种流模型技术，被用于CosyVoice 2等模型中。
扩散模型 (Diffusion Models): 作为近年来在图像和音频生成领域取得显著成功的生成模型，扩散模型也开始被应用于TTS，用于韵律预测、声学特征生成或细化。它们擅长建模复杂数据分布，有望生成高保真度和多样性的韵律。

2.4 整合韵律：声学模型/声码器中的显式与隐式控制

预测出的韵律信息（无论是显式的声学特征还是隐式的潜在表示）最终需要被整合到声学模型（Acoustic Model，通常指生成梅尔频谱图等声学特征的模型）或声码器（Vocoder，将声学特征转换为波形）中，以控制最终输出语音的韵律表现。主要有两种整合方式：

显式控制 (Explicit Control): 将预测出的具体韵律特征值（如每个音素的时长、每帧的 $F_0$ 值、每帧的能量值）作为额外的条件输入，送入声学模型或声码器。FastSpeech 2是这种方法的典型代表，其Variance Adaptor输出的显式时长、音高和能量信息会与音素隐藏表示结合，共同输入到梅尔频谱解码器。这种方式的优点是韵律参数（语速、音高、音量）可解释性强，并且允许在推理阶段直接进行修改以实现细粒度控制。然而，其效果受限于韵律预测器的准确性，预测误差或过平滑会直接影响最终韵律质量。
隐式控制 (Implicit Control): 不直接预测和使用具体的声学特征值，而是让韵律信息蕴含在模型的内部表示（如潜在变量、注意力权重、风格嵌入等）中，并通过这些表示来隐式地引导声学特征或波形的生成。例如，Tacotron 2通过其基于注意力的解码器隐式地学习文本与语音的对齐（决定时长和节奏），并通过自回归过程生成带有特定语调模式的梅尔频谱。VITS则通过VAE学习的潜在变量和随机时长预测器来隐式控制音高和节奏变化。控制通常通过间接方式实现，如提供参考音频以提取风格/韵律嵌入，或在潜在空间进行操作。基于LLM的模型通常也采用隐式建模，通过预测声学或语义令牌序列来生成包含韵律信息的语音。隐式控制可能更容易捕捉到声学特征间自然的协同变化，生成更自然的韵律，但直接、精确地控制特定韵律参数（如将某个词的音高提高20Hz）则比较困难。

这两种方式的选择反映了TTS领域在可控性与自然度之间的持续探索。显式控制提供了更强的可解释性和直接操控能力，但可能牺牲部分自然度；隐式控制则可能生成更自然的整体韵律，但牺牲了细粒度的直接控制能力。现代系统有时也会结合两者，例如使用隐式方法学习全局风格，同时允许对某些显式参数进行微调。

3. 韵律建模实践：开源TTS架构剖析

本节将深入探讨几个主流的开源TTS模型，分析它们在架构上如何具体实现韵律的建模和生成，涵盖经典模型和最新的基于LLM的模型。

3.1 显式预测模型

3.1.1 FastSpeech 2

FastSpeech 2 是一个广泛使用的非自回归TTS模型，以其快速的推理速度和鲁棒性著称。

架构: 核心包括一个基于Transformer的音素编码器、一个关键的Variance Adaptor模块，以及一个梅尔频谱解码器。编码器将输入的音素序列转换为隐藏表示。Variance Adaptor接收编码器的输出，并对其进行扩展和调整，以匹配目标梅尔频谱的长度和韵律特征。最后，解码器将经过调整的隐藏序列并行地转换为梅尔频谱图。
韵律建模 (Variance Adaptor): 这是FastSpeech 2进行显式韵律建模的核心。它包含三个独立的预测器：
- 时长预测器 (Duration Predictor): 预测每个音素对应的梅尔频谱帧数。训练时，使用外部工具（如Montreal Forced Aligner, MFA）提取的真实音素时长作为监督信号。预测出的时长用于通过“长度调节器”（Length Regulator）扩展音素隐藏序列，使其长度与目标梅尔频谱对齐。
- 音高预测器 (Pitch Predictor): 预测帧级别的音高信息。为了更好地建模音高变化，FastSpeech 2通常采用连续小波变换（CWT）将基频（ $F_0$ ）轮廓转换为音高谱图，并以此作为预测目标。预测出的音高信息（通常量化后转换为嵌入）被加到扩展后的隐藏序列上。
- 能量预测器 (Energy Predictor): 预测帧级别的能量值（通常是STFT幅度的L2范数）。与音高类似，预测的能量信息（量化并嵌入后）也被添加到隐藏序列中。
控制: 由于韵律特征是显式预测的，FastSpeech 2允许在推理阶段直接修改这些预测值。例如，可以通过缩放时长预测值来控制语速，或修改音高预测值来改变语调轮廓。
优缺点: 推理速度快，生成稳定，韵律可控性强。但韵律质量依赖于预测器的准确性，可能出现韵律平淡或预测错误的问题。训练需要额外的对齐工具获取时长标签。

3.2 隐式与端到端模型

3.2.1 Tacotron 2

Tacotron 2 是一个里程碑式的自回归TTS模型，以生成高质量、自然的语音而闻名。

架构: 基于带有注意力机制的Sequence-to-Sequence框架。通常包含一个基于CNN和Bi-LSTM的编码器，用于处理输入字符或音素序列；一个基于注意力机制的自回归解码器（通常使用LSTM），逐帧生成梅尔频谱；以及一个后处理网络。生成的梅尔频谱通常输入到一个单独训练的神经声码器（如WaveNet 或 WaveGlow ）中合成最终波形。
韵律建模: Tacotron 2采用隐式的方式建模韵律。
- 节奏/时长: 主要由注意力机制隐式决定。注意力机制在解码过程中学习将输入文本单元（字符/音素）与输出梅尔频谱帧对齐。这种对齐关系决定了每个文本单元发音的持续时间，从而影响节奏和语速。
- 语调/音高: 由自回归解码器在生成梅尔频谱时隐式学习。解码器根据编码器输出的文本表示、注意力上下文以及先前生成的梅尔频谱帧来预测当前帧，从而捕捉训练数据中存在的语调模式和音高变化。模型能学习到一些基本的韵律规则，例如疑问句末尾的升调。
控制: 直接控制韵律比较困难。可以通过引入外部模块，如参考编码器（Reference Encoder）和全局风格令牌（Global Style Tokens, GST），从参考音频中提取风格嵌入来影响生成的韵律和风格。也可以通过修改注意力机制来间接影响节奏。
优缺点: 能够生成非常自然、高质量的语音。但自回归的生成方式导致推理速度较慢，并且注意力机制可能失败，导致漏字、重复等鲁棒性问题。韵律控制不直接，生成的韵律可能是训练数据的平均表现。

3.2.2 VITS (Variational Inference for TTS)

VITS 是一个端到端的并行TTS模型，结合了变分自编码器（VAE）、归一化流（Normalizing Flows）和生成对抗网络（GANs）。

架构: VITS的核心是一个条件VAE（Conditional VAE）。它包括：一个后验编码器（Posterior Encoder），从目标语音频谱中提取潜在变量z的后验分布；一个先验编码器（Prior Encoder），由文本编码器（Text Encoder，基于Transformer）和归一化流组成，用于预测给定文本的潜在变量z的先验分布；一个解码器（Decoder，基于HiFi-GAN结构），从潜在变量z生成原始波形；一个随机时长预测器（Stochastic Duration Predictor），预测音素时长分布；以及一个判别器（Discriminator）用于对抗训练。训练中使用了单调对齐搜索（Monotonic Alignment Search, MAS）来寻找文本和语音之间的最佳对齐路径。
韵律建模: VITS通过其生成框架隐式地建模韵律的多样性。
- 节奏/时长: 由随机时长预测器建模。该预测器学习音素时长的概率分布，而不是单一的确定性值。在推理时，可以从该分布中采样不同的时长序列，从而生成具有不同节奏和语速的语音，更好地体现了“一对多”关系。
- 语调/音高及其他变化: 主要由VAE的潜在变量z 和归一化流建模。VAE的潜在空间捕捉了语音中除了文本内容之外的变化信息，包括音高、能量、说话风格等韵律相关特征。归一化流增强了先验分布的表达能力，使得模型能够生成更复杂、更多样的潜在变量，进而产生具有不同音高轮廓和表现力的语音。
控制: 韵律控制是隐式的，主要通过改变随机种子来实现。不同的种子会从时长预测器和先验分布中采样得到不同的时长和潜在变量，从而产生韵律不同的语音。对于多说话人或风格迁移任务，可以通过条件化（如输入说话人嵌入或参考音频嵌入）来控制输出的声音特性和风格。
优缺点: 端到端生成波形，质量高，自然度和表现力好，能有效建模韵律多样性。并行生成，推理速度快于自回归模型。架构相对复杂。韵律控制是随机的，难以进行精确的、确定性的调整。

3.2.3 Piper

Piper 是一个专注于效率和本地部署的TTS系统。

架构: Piper基于VITS架构进行训练和优化。它将训练好的VITS模型导出为ONNX格式，以便使用onnxruntime进行高效推理。其目标是为树莓派、Home Assistant等资源受限的平台提供快速的本地TTS服务。提供不同质量等级的模型（如low, medium, high），对应不同的采样率和模型参数量。
韵律建模: 由于Piper基于VITS，其韵律建模方式继承自VITS，即通过VAE潜在空间和随机时长预测器进行隐式建模 (推断)。Piper的主要贡献在于VITS模型的优化和部署，而非韵律建模方法上的创新。
控制: 控制方式也应与VITS类似，主要通过随机种子产生变化。支持多说话人模型，可以通过指定说话人ID来切换声音。虽然提到可以定制音高、速度等，但具体实现细节和控制精度未在提供的信息中详述，可能依赖于VITS本身的能力或额外的参数调整。
优缺点: 推理速度快，资源占用低，非常适合嵌入式设备和本地应用。提供了多种语言和质量等级的预训练模型。语音质量和韵律表现力取决于所使用的VITS基础模型和质量等级，可能略逊于顶级的、计算密集型的VITS实现。

3.3 高级克隆与高保真模型

3.3.1 Tortoise TTS

Tortoise TTS 以其高度逼真的语音质量和强大的（零样本）语音克隆能力而闻名。

架构: 这是一个复杂的多阶段模型。它通常包括：
1.一个自回归（AR）解码器（类似GPT），根据文本和从参考音频中提取的条件潜向量（conditioning latents）来预测离散的语音编码（可能是VQ-VAE code或类似表示）。
2.一个扩散（Diffusion）解码器，接收AR解码器输出的离散编码和条件潜向量，生成梅尔频谱图的潜在表示。
3.一个声码器（Vocoder），将扩散模型生成的频谱表示转换为最终的波形。参考音频片段（通常几秒钟）对于提供目标说话人的声音特征和韵律风格至关重要。
韵律建模: Tortoise的韵律建模是隐式的，并且强依赖于参考音频。模型的核心目标是尽可能真实地复制参考音频中的韵律、语调和整体说话风格。条件潜向量（conditioning latents）被设计用来捕获这些说话人特有的韵律和音色信息。AR解码器和扩散解码器在生成过程中，会根据这些潜向量来调整输出的语音编码和频谱，以匹配参考音频的韵律特征。
控制: 主要通过选择不同的参考音频片段来实现韵律和风格的控制。使用同一个人的不同说话风格的参考音频，可以生成不同风格的语音。也可以通过调整AR和扩散模型的采样参数（如temperature）来引入一些随机性。有实验性的情感控制功能。
优缺点: 生成的语音极其逼真，语音克隆效果和韵律迁移能力非常强。但由于同时使用了AR模型和扩散模型，其推理速度极其缓慢。对于过长的句子，生成质量可能会下降。

3.3.2 Coqui XTTS

Coqui XTTS 是一个基于Tortoise TTS，但针对多语言语音克隆和效率进行了改进的模型。

架构: XTTS建立在Tortoise的基础之上，并进行了多项修改以支持多语言训练、改进零样本语音克隆（ZS-TTS）能力，并提升训练和推理速度。它可能保留了Tortoise的核心组件，如AR模型、扩散模型（或替代的生成模块）和声码器，但具体实现细节有所调整，例如使用了自定义的BPE文本分词器和改进的说话人条件编码器（可能使用Perceiver Resampler）。它同样依赖于短（3-6秒）参考音频进行语音克隆。XTTS v2版本在架构上做了改进，支持多参考音频和说话人插值，并且支持流式推理。
韵律建模: 与Tortoise类似，XTTS的韵律建模也是隐式的，并由参考音频驱动。其设计目标之一是实现跨语言的韵律迁移，即能够将源语言参考音频中的说话风格和韵律应用到目标语言的合成语音中。XTTS v2版本声称在韵律和音频质量方面有全面提升，表明其韵律处理能力有所增强。
控制: 主要通过选择参考音频来控制声音和风格。提供了一些推理参数（如temperature, length_penalty, repetition_penalty, top_k, top_p, speed）用于调整生成过程。提到了情感和风格迁移能力。支持模型微调以适应特定需求。
优缺点: 强大的跨语言零样本语音克隆能力，仅需很短的参考音频。相比Tortoise，速度有所提升，并支持流式推理。支持多种语言。语音质量和韵律表现仍然依赖于参考音频的质量。模型结构依然复杂。

3.4 TTS的LLM时代

大型语言模型（LLMs）因其强大的文本理解、上下文推理和生成能力，正被越来越多地集成到TTS系统中，开创了新的韵律建模和控制范式。

核心趋势:

离散语音表征 (Discrete Speech Tokens): LLM-TTS通常不直接生成梅尔频谱，而是预测离散的语音单元（tokens），这些单元可以是声学编码器（如SoundStream, EnCodec）产生的声学令牌（acoustic tokens），也可以是包含更多语义信息的语义令牌（semantic tokens）。LLM负责将文本序列映射到这些离散的语音令牌序列。
上下文学习 (In-Context Learning, ICL): 利用LLM的ICL能力，通过在输入中提供简短的参考音频（通常也转换为令牌形式）作为提示（prompt），实现零样本语音克隆（ZS-TTS）。模型从提示中学习目标说话人的音色和韵律风格。
隐式韵律建模: 韵律通常由LLM在预测令牌序列时隐式建模。LLM利用其对文本上下文和（如果提供了）参考音频提示的理解来生成包含适当韵律信息的令牌序列。

3.4.1 SparkTTS

SparkTTS 是出门问问提出的一个基于LLM的高效TTS系统。

架构: 核心是其定制的BiCodec语音编解码器和一个LLM骨干（如Qwen2.5）。BiCodec的特点在于它将语音分解为单一流中的两种互补令牌：低比特率的语义令牌（semantic tokens）捕获语言内容，以及固定长度的全局令牌（global tokens）捕获说话人属性（如音色、风格）。这种解耦的表示旨在分离内容和说话人特征。生成过程据称使用了思维链（Chain-of-Thought, CoT）方法，可能指LLM在生成最终令牌前会生成中间的控制或韵律规划步骤。
韵律建模: 隐式建模。LLM根据输入的文本和全局令牌（以及可能的CoT指令）来预测语义令牌序列。韵律信息主要由LLM基于上下文理解生成，并通过语义令牌体现。全局令牌主要控制说话人身份和整体风格，而语义令牌承载内容和具体的发音细节（包括韵律）。
控制: SparkTTS的设计目标是实现灵活的控制。
- 粗粒度控制: 通过操纵全局令牌或提供不同的参考音频（影响全局令牌提取）来控制性别、整体说话风格等。
- 细粒度控制: 通过CoT方法或直接的指令（prompting）来调整具体的韵律参数，如精确的音高值或语速。这使得生成高度定制化的语音成为可能，超越了简单的参考音频克隆。
优缺点: 高效的单流编解码器。提供灵活的粗粒度和细粒度控制能力。实现了先进的零样本语音克隆效果。依赖于大规模标注数据集（如其发布的VoxBox）进行训练。CoT在韵律控制中的具体机制需要更详细的公开信息。

3.4.2 CosyVoice / CosyVoice 2

CosyVoice系列是另一个代表性的基于LLM的TTS系统，特别强调可扩展性和流式合成能力。

架构 (CosyVoice 2): 采用两阶段流水线：
- 文本-语音语言模型 (Text-Speech LM): 接收文本输入（直接使用BPE分词，无需G2P ），并自回归地预测监督语义语音令牌 (Supervised Semantic Speech Tokens)。该LM可以直接使用预训练的LLM（如Qwen2 ，或RWKV ）作为骨干，移除了独立的文本编码器和说话人嵌入。语义令牌通过S3Tokenizer（基于有限标量量化Finite Scalar Quantization, FSQ）从语音中提取，旨在捕获语义内容。
- 块感知因果流匹配模型 (Chunk-aware Causal Flow Matching): 将LM生成的语义令牌转换为梅尔频谱图。该模型接收上采样的语义令牌，并可以条件化于说话人嵌入或参考语音（用于ICL）。其“块感知”和“因果”设计使其能够支持流式合成，即在接收到部分输入令牌后就能开始生成音频，延迟较低。
韵律建模: 隐式建模。韵律主要由Text-Speech LM在预测语义令牌时根据文本上下文和（在ICL场景下）参考音频提示来决定。S3Tokenizer专注于语义，可能有助于将韵律/风格信息与内容分离，这些信息随后在Flow Matching阶段结合说话人/参考信息进行声学实现。
控制: 主要通过参考音频提示进行零样本语音克隆，包括音色、韵律和风格的迁移。CosyVoice 2还支持指令TTS (Instructed TTS)，允许用户通过自然语言指令来控制生成的语音特征（如情感、说话风格）。
优缺点: 实现了高质量的零样本语音克隆和流式合成，延迟低。统一了流式和非流式模型。利用预训练LLM增强了上下文理解能力。支持指令控制。仍然是一个相对复杂的两阶段系统。有研究指出当前音频分词方法可能无法完全保留韵律细节。

下表总结了上述讨论的关键开源TTS系统在韵律建模方面的主要特点：

模型名称	架构类型	韵律建模方式	关键韵律组件/方法	韵律控制方式	主要优缺点 (韵律相关)
Tacotron 2	自回归 Seq2Seq (RNN/LSTM + Attention)	隐式	注意力机制 (时长/节奏), 自回归解码 (音高/语调)	间接 (参考嵌入/GST, 注意力修改)	自然度高；控制不直接，易产生平均韵律；可能存在注意力对齐错误影响节奏
FastSpeech 2	非自回归Transformer	显式	Variance Adaptor (时长、音高(CWT谱)、能量预测器)	直接修改预测值 (时长、音高、能量)	控制性强，可解释；韵律质量依赖预测精度，易过平滑；需外部对齐
VITS	端到端并行 (VAE + Flow + GAN)	隐式	VAE潜在空间 (音高/风格), 随机时长预测器 (节奏), 归一化流	随机 (通过种子改变采样), 条件化 (说话人/风格嵌入)	自然度/表现力好，建模多样性强；控制是随机/间接的，难精确调整
Piper	端到端并行 (基于VITS, ONNX优化)	隐式	继承VITS (VAE潜在空间, 随机时长预测器)	随机 (种子), 说话人ID选择	高效，适合边缘设备；韵律能力依赖VITS基础模型和质量等级
Tortoise TTS	多阶段 (AR + Diffusion + Vocoder)	隐式 (参考驱动)	条件潜向量 (Conditioning Latents from Reference Audio)	参考音频选择，采样参数调整	极高真实感，强韵律/风格克隆；推理极慢，长句可能失效
Coqui XTTS	多阶段 (基于Tortoise, 多语言/流式优化)	隐式 (参考驱动)	参考音频条件化，改进的说话人编码	参考音频选择，推理参数，微调，(情感/风格迁移)	强跨语言克隆，支持流式；韵律依赖参考音频，模型复杂
SparkTTS	LLM-based (Qwen2.5 + BiCodec)	隐式	LLM预测语义令牌，BiCodec全局令牌 (风格)，CoT	粗粒度 (全局令牌/参考)，细粒度 (指令/CoT)	灵活控制 (粗+细)，高效单流；依赖LLM和大数据，CoT细节不明
CosyVoice 2	LLM-based (LLM + S3Tokenizer + Flow Matching)	隐式	LLM预测语义令牌 (S3Tokenizer)，Flow Matching (声学实现)，参考音频/指令条件化	参考音频提示 (ICL)，自然语言指令	高质量零样本克隆，流式低延迟，指令控制；两阶段系统，音频分词可能损失信息
表1: 开源TTS系统韵律建模对比分析

开源TTS模型在韵律建模上展现了显著的架构多样性，从显式预测到隐式生成，再到最新的LLM驱动范式。这一演变反映了领域内对于如何最好地平衡控制性、自然度、效率以及如何解决核心的“一对多”映射问题的持续探索。特别是，VITS代表的端到端生成和LLM驱动的离散令牌预测是当前的重要趋势，它们倾向于通过强大的生成能力和大规模数据学习来隐式地捕捉自然的韵律模式，同时通过参考音频或指令提供控制接口。零样本语音克隆能力的普遍强调也表明，个性化和韵律风格迁移是当前TTS发展的重要方向，而这高度依赖于模型有效解耦和传递韵律信息的能力。

4. 增强表现力：高级韵律控制技术

除了基础的韵律建模，研究人员还开发了多种高级技术来进一步增强合成语音的表现力，允许更灵活或更精细地控制韵律风格。

4.1 风格迁移：学习和应用风格嵌入

风格迁移（Style Transfer）旨在将源语音的说话风格（如情感、语调模式、节奏特点）迁移到目标文本的合成语音上，通常用于跨说话人场景。

参考编码器 (Reference Encoder): 这是最常见的方法之一。一个独立的编码器网络被训练用来从一段参考音频中提取一个固定维度的向量，称为风格嵌入（style embedding）或韵律嵌入（prosody embedding）。这个嵌入向量随后被用作TTS主模型（如Tacotron或其变体）的条件输入，通常是与文本编码器的输出相加或拼接，或者注入到解码器中，以引导合成语音具有参考音频的风格。这种方法允许使用任意（通常是文本不相关的）参考音频来控制风格。
全局风格令牌 (Global Style Tokens, GSTs): GST 是一种在训练过程中无监督地学习一组（通常是有限个数）可解释的风格基向量（style tokens）的方法。每个token可能对应一种特定的说话风格（如语速快、音调高、表达兴奋等）。同时训练一个参考编码器，用于预测给定参考音频时，这些基本风格token的组合权重。推理时，可以通过指定不同的权重组合来生成不同风格的语音，或者使用参考编码器从参考音频中推断权重。
基于VAE的风格建模 (VAE-based Style Modeling): 利用VAE学习一个连续的潜在风格空间。参考编码器（VAE的编码器部分）将参考音频映射到这个潜在空间中的一个点（通常是均值和方差）。推理时，可以从这个潜在空间采样，或者使用参考编码器得到特定参考音频的潜在表示，然后将其作为条件输入到TTS解码器中。VITS 就内在地使用了VAE来建模包括风格在内的语音变化。一些工作如ControlVAE 尝试使这个VAE潜在空间更具可解释性。
多模态提示 (Multi-modal Prompts): 最近的研究开始探索使用文本描述或甚至面部表情图像作为风格提示。这需要一个跨模态编码器将不同模态的输入映射到一个统一的风格嵌入空间。例如，MM-TTS 旨在构建一个能接受语音、图像或文本描述作为风格输入的统一框架。

风格迁移的主要挑战在于解耦 (disentanglement) 。需要确保提取的风格嵌入只包含风格/韵律信息，而不含说话人身份或文本内容信息，否则在迁移时会导致声音身份泄露或内容不匹配的问题。许多架构设计（如VAE的瓶颈结构、对抗训练、梯度反转等）都是为了促进更好的解耦。

4.2 参考音频编码：带韵律迁移的语音克隆

语音克隆（Voice Cloning），特别是零样本语音克隆（Zero-Shot TTS），与风格迁移密切相关，但其目标通常是更完整地复制一个（通常是未见过的）说话人的声音，包括其独特的音色和韵律风格，通常只需要几秒钟的参考音频。韵律的成功迁移是实现高质量语音克隆的关键。

机制: 大多数零样本TTS系统都包含一个参考编码器，用于从输入的短参考音频中提取一个或多个嵌入向量，这些嵌入向量捕获了说话人的音色和说话风格（包括韵律）。这些嵌入随后被注入到TTS模型的不同部分（如编码器、解码器、时长/音高预测器或声码器）作为条件，以生成具有目标说话人声音特征的语音。先进的模型可能会使用更复杂的编码器，如基于Perceiver的架构或基于自监督学习（SSL）模型（如WavLM）的编码器，以提取更鲁棒和信息丰富的表示。
跨语言克隆与韵律迁移 (Cross-Lingual Cloning & Prosody Transfer): 一个更具挑战性的任务是跨语言语音克隆，即使用一种语言的参考音频来合成另一种语言的语音，同时保留说话人的音色，并生成目标语言的自然韵律。这要求模型不仅能克隆音色，还能理解源韵律的风格特征，并将其适应性地应用到目标语言的韵律规则上。XTTS 和 VIPT 是专注于此方向的模型。
细粒度韵律迁移 (Fine-grained Prosody Transfer): 传统的参考编码器通常提取一个全局的（utterance-level）风格嵌入。然而，韵律在话语中是动态变化的。因此，一些研究尝试实现更细粒度的韵律迁移，例如在短语（phrase）、词（word）或音素（phoneme）层面提取和应用韵律信息。这有望更精确地复制参考语音的局部韵律变化，但实现起来更复杂，需要解决对齐等问题。例如，CopyCat2 学习词级别的说话人无关韵律表示。
基于LLM的上下文学习 (LLM-based In-Context Learning): LLM的出现为零样本语音克隆提供了新的途径。通过将参考音频（通常先编码为离散令牌）作为输入提示的一部分，LLM可以在“上下文”中学习说话人的声音特征（包括韵律），并将其应用于新文本的生成。这种方法将语音克隆问题转化为一个大规模序列建模问题。
同样，解耦是语音克隆成功的关键。模型需要能够区分并分别控制音色、韵律和内容。参考音频的质量和内容也会显著影响克隆效果。

4.3 直接参数操纵：细粒度的韵律调整

对于那些具有显式韵律预测模块的模型（如FastSpeech 2），存在一种更直接的控制方式：在推理阶段直接修改预测出的韵律参数值。

方法: 在模型预测出每个音素的时长、每帧的音高和能量后，但在这些值被送入后续的声学模型（如梅尔频谱解码器）之前，可以对它们进行人为的调整。例如，可以将所有音素的时长乘以一个系数来全局改变语速，或者选择性地增加某个词对应音素的时长和音高来实现强调。
应用实例:
- PRESENT框架: 提出了一种无需重新训练即可在预训练的FastSpeech 2类模型上实现韵律编辑的方法。它通过解析用户输入的文本标记（例如，在词语周围加上特殊符号表示强调）来指导对相应位置的时长、音高、能量（Duration, Pitch, Energy - DPE）预测值进行修改。
- 人机交互调优 (Human-in-the-Loop, HitL): 一些研究探索了让用户通过图形界面直接调整预测出的 $F_0$ 、能量和时长曲线，以迭代地改善合成语音的韵律。研究表明，虽然音素级别的控制可能过于复杂，但在词语或句子级别进行调整是可行的，并且能够提高韵律的适切性。
  挑战: 这种方法的优点是控制非常直接和精确。然而，随意的修改可能破坏韵律参数之间自然的协同变化关系（例如，通常时长增加伴随着音高的变化），导致最终语音听起来不自然。用户需要具备一定的韵律知识才能有效地使用这种控制方式。

4.4 自然语言提示：LLM驱动的风格控制

利用LLM强大的自然语言理解能力，一种新兴的控制方式是通过自然语言提示（prompt）来指导TTS系统生成具有特定风格或情感的语音。

方法: 用户不再需要提供参考音频或调整底层参数，而是直接用自然语言描述期望的输出效果，例如“用悲伤的语气说”、“这句话要读得快一点”、“强调最后三个字”等。
实现: 这通常需要一个基于LLM的TTS架构。实现方式可能包括：
- 提示到嵌入 (Prompt-to-Embedding): 使用一个（可能是跨模态的）编码器将自然语言提示转换为风格嵌入向量，然后将其作为条件输入到TTS模型中（如PromptStyle ）。
- 直接指令遵循 (Direct Instruction Following): LLM本身直接理解并执行指令。例如，CosyVoice 2的Instruct模型可以接收指令来控制说话人身份、情感等。EmoVoice 专注于通过自由格式的文本提示实现细粒度的情感控制。
- 思维链/中间表示 (Chain-of-Thought / Intermediate Representation): LLM可能首先根据指令生成一个中间的韵律规划或参数表示，然后再生成最终的语音令牌（SparkTTS可能采用类似方式）。
潜力与挑战: 这种方式提供了极其直观和灵活的控制界面。用户可以用自己习惯的方式描述需求。然而，其效果高度依赖于LLM对自然语言指令（尤其是涉及韵律这种抽象概念的指令）的理解能力，以及将这种理解准确映射到声学特征上的能力。如何确保LLM生成的韵律既符合指令又保持自然度是一个关键挑战。

这些高级控制技术共同推动了TTS向更具表现力、更个性化、更易于控制的方向发展。参考音频驱动的克隆技术在个性化方面表现突出，而直接参数操纵和自然语言提示则在提供更灵活、细致的控制方面展现潜力。然而，所有这些技术都面临着如何在增强控制的同时保持或提升语音自然度的核心挑战，以及如何有效解耦语音中的各种信息（内容、说话人、风格、韵律）的问题。

5. 评估合成韵律：指标与方法

评估TTS系统生成的韵律质量对于模型改进和比较至关重要。评估方法主要分为客观指标和主观听力测试两大类。

5.1 客观评估：量化声学准确性

客观评估通过计算合成语音的声学特征与参考（通常是真人录音）语音之间的差异来进行。这需要有与合成文本内容相同的、具有目标韵律的参考录音，并且通常需要进行时间对齐（如使用动态时间规整DTW ）。

音高 ( $F_0$ ) 相关指标: $F_0$ ) 均方根误差 ( $F_0$ )RMSE): 计算预测 $F_0$ )轮廓与参考 $F_0$ )轮廓之间的均方根误差，通常在对数域（ $Log F_0$ RMSE）进行计算以符合人类听觉感知。值越低表示预测越接近参考。
总音高误差 (Gross Pitch Error, GPE): 指预测为有声但实际无声（或反之），或者预测的有声帧 $F_0$ )误差超过一定阈值（如20%）的帧所占的百分比。反映了在基频估计和清浊音判断上的较大错误。
清浊音决策误差 (Voicing Decision Error, VDE): 预测的清音/浊音（Voiced/Unvoiced）标签与参考标签不一致的帧所占的比例。
$F_0$ 相关系数 ( $F_0$ )CORR): 计算预测 $F_0$ 轮廓与参考 $F_0$ 轮廓之间的相关系数。值越接近1表示两者变化趋势越一致。
时长相关指标:
- 时长预测误差 (Duration Prediction Error): 通常使用均方误差（MSE）或平均绝对误差（MAE）来衡量预测的音素时长与真实时长（通常来自强制对齐）之间的差异 (隐含在FastSpeech 2论文中)。需要准确的真实时长标注。
  其他声学指标:
- 梅尔倒谱失真 (Mel Cepstral Distortion, MCD): 衡量合成语音梅尔倒谱系数（MFCCs或MCEPs）与参考语音之间的距离，反映整体频谱结构的相似度，常用于评估整体音质。值越低越好。
- 能量均方根误差 (Energy RMSE): 类似于 $F_0$ )RMSE，可以用来评估预测能量与参考能量之间的差异。
局限性: 客观指标的主要问题在于它们与人类主观感知的相关性并不完美。例如，一个 $F_0$ RMSE很低的合成语音可能听起来仍然非常平淡（过平滑），而一个在客观指标上稍差但韵律变化更丰富的语音可能听起来更自然。此外，客观评估依赖于高质量的、严格对齐的参考录音，这在某些场景下难以获得。

5.2 主观评估：听众对自然度与表现力的感知

主观评估依赖于人类听众对合成语音进行打分或比较，被认为是评估感知质量的黄金标准。

平均意见分 (Mean Opinion Score, MOS): 最常用的主观评估方法。听众被要求对合成语音样本的某个方面（如自然度、表现力、整体质量）在预定义的等级（通常是1到5分，分数越高越好）上打分。自然度MOS是衡量合成语音质量的一个主要驱动指标。
比较平均意见分 (Comparative Mean Opinion Score, CMOS): 听众直接比较两个不同系统（如系统A和系统B）生成的同一句话，并给出偏好得分（如从-3到+3）。这种方法可以减少个体听众打分标准不一带来的偏差。
AB/ABX 测试: 在AB测试中，听众选择两个样本（A或B）中哪个更好。在ABX测试中，听众判断样本X与样本A或样本B哪个更相似或相同。常用于比较两个系统或判断合成语音与真实语音的相似度。
MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor): 一种更复杂的测试方法，听众同时对多个（包括隐藏的参考样本和低质量锚点样本在内）待测系统的输出进行评分（通常在0-100分之间）。适用于评估细微的质量差异。
特定属性评分: 除了整体评价，还可以要求听众针对特定的韵律属性进行评分，例如语调是否恰当、节奏是否自然、重音是否准确等。这有助于更深入地了解模型在韵律方面的具体表现。
局限性: 主观评估成本高、耗时长，需要招募和培训听众，并进行仔细的实验设计以确保结果的可靠性。听众的背景、疲劳度以及测试环境都可能影响结果。特别是，传统的在孤立句子上进行的MOS测试可能无法反映模型在真实语篇或对话环境中的韵律表现是否恰当。

5.3 局限性与上下文评估的需求

当前的评估方法存在明显的不足。客观指标虽然方便快捷，但与感知的韵律质量（自然度、表现力、适切性）之间存在差距。主观测试虽然更接近人类感知，但成本高昂，且传统的孤立句评估模式忽略了韵律的上下文依赖性。韵律的功能（如标示语篇结构、表达情感、区分焦点）往往需要在特定的语境中才能体现其恰当性。

因此，未来的评估方法需要更加关注上下文。这可能包括：

在更长的语篇（段落、故事）或对话场景中进行主观评估。
设计评估任务来考察韵律的适切性（appropriateness），即生成的韵律是否符合给定的语境、情感或说话意图。
开发新的、与人类感知更相关的自动化客观指标，例如基于深度学习的MOS预测器或利用自监督学习特征的指标（如SpeechBERTScore ）。
构建更全面的评估框架，整合多种客观和主观指标，并提供上下文信息，如ATTEST框架的尝试。
准确、全面地评估合成韵律仍然是一个开放的研究领域，对于推动TTS技术向更高表现力发展至关重要。

6. 总结：合成富有表现力的语音

TTS系统模拟语音韵律的技术路径已经从早期的基于规则和统计参数的方法，发展到当前由深度学习主导的时代。核心挑战始终围绕着如何有效处理文本到韵律的“一对多”映射问题，以及如何捕捉和生成依赖于复杂上下文的、微妙而自然的韵律变化。

大型语言模型的引入是当前TTS领域，特别是韵律建模和控制方面，最显著的进展。LLM增强了模型对文本上下文和语义的理解，使得生成更恰当、更自然的韵律成为可能。离散语音令牌和上下文学习（ICL）范式极大地提升了零样本语音克隆的能力，使得个性化TTS更加便捷。自然语言指令控制则为用户提供了更直观、灵活的交互方式。同时，流式合成技术的发展解决了LLM-TTS在交互应用中的延迟问题。

尽管取得了巨大进步，但合成完全自然且富有表现力的韵律仍然面临挑战。未来的研究方向可能包括：