【TTS学习笔记】:语音合成领域基本术语
一、基础术语
- TTS (Text-to-Speech)
- 文本转语音,把输入的文字自动转换成语音的技术。
- G2P (Grapheme-to-Phoneme)
- 把文字(字母/汉字)转换成对应的音素(发音单位),比如“Hello”转成
[h ə l oʊ]
。
- 把文字(字母/汉字)转换成对应的音素(发音单位),比如“Hello”转成
- Phoneme(音素)
- 语言中最小的发音单位,TTS必须先知道要怎么发音才能合成语音。
- Prosody(韵律)
- 包括重音、语调、节奏、停顿等,用来让合成语音听起来更自然。
- Voice Cloning(声音克隆)
- 模拟特定人的声音进行语音合成,可以“复刻”某个说话人的音色。
二、模型与算法
- Tacotron 2
- 经典的TTS模型,把文字直接转换成梅尔频谱图,再通过Vocoder生成音频。
- FastSpeech
- 一种速度更快、效果不错的端到端TTS模型,通过非自回归方式提升合成效率。
- VITS
- 当前非常流行的TTS模型,结合了语音合成和语音风格控制,效果自然且无需单独的Vocoder。
- Vocoder
- 把模型输出的“频谱图”等中间特征转换成真正的声音波形。常见的有HiFi-GAN、WaveNet、Parallel WaveGAN。
- Diffusion Models(扩散模型)
- 新一代生成式模型,通过逐步还原噪声生成高质量音频,提升自然度和清晰度。
三、特征与表示
- Mel-Spectrogram(梅尔频谱图)
- 一种常用的音频特征图,把音频的能量分布按人类听觉感知的频率划分。TTS模型通常生成这种图,再交给Vocoder还原成语音。
- Pitch(音高)
- 控制声音的高低,比如普通话的四声就是典型的音高变化。
- Energy(能量)
- 反映语音的响亮程度,比如强调某个词时能量会更大。
- Duration(时长)
- 每个音素的发音时长,直接影响语音节奏和流畅度。
- Speaker Embedding(说话人嵌入)
- 一种用向量表示说话人特征的方法,可以控制合成的声音是谁的音色。
四、系统功能相关
- Zero-Shot TTS
- 不需要特定人的大量录音,仅凭一小段语音样本就能模仿其音色进行合成。
- Multi-Speaker TTS
- 一个模型支持合成多种不同人的声音。
- Style Transfer(风格迁移)
- 控制语音的情绪、语气,比如“开心、悲伤、疑问句”等风格。
- Emotion Control(情感控制)
- 直接控制合成语音的情感色彩,比如兴奋、悲伤、愤怒。
- Real-Time TTS(实时语音合成)
- 快速生成语音,达到几乎听不到延迟的程度,适合对话机器人等实时场景。
五、总结一句话:
TTS的本质就是把“文字 → 发音 → 语音特征 → 音频波形”这一系列过程做得又快又自然,既要准确读出来,还得像真人一样说话。