当前位置：首页 > news >正文

【TTS学习笔记】：语音合成领域基本术语

news 2025/11/4 17:17:11

一、基础术语

TTS (Text-to-Speech)
- 文本转语音，把输入的文字自动转换成语音的技术。
G2P (Grapheme-to-Phoneme)
- 把文字（字母/汉字）转换成对应的音素（发音单位），比如“Hello”转成 [h ə l oʊ]。
Phoneme（音素）
- 语言中最小的发音单位，TTS必须先知道要怎么发音才能合成语音。
Prosody（韵律）
- 包括重音、语调、节奏、停顿等，用来让合成语音听起来更自然。
Voice Cloning（声音克隆）
- 模拟特定人的声音进行语音合成，可以“复刻”某个说话人的音色。

二、模型与算法

Tacotron 2
- 经典的TTS模型，把文字直接转换成梅尔频谱图，再通过Vocoder生成音频。
FastSpeech
- 一种速度更快、效果不错的端到端TTS模型，通过非自回归方式提升合成效率。
VITS
- 当前非常流行的TTS模型，结合了语音合成和语音风格控制，效果自然且无需单独的Vocoder。
Vocoder
- 把模型输出的“频谱图”等中间特征转换成真正的声音波形。常见的有HiFi-GAN、WaveNet、Parallel WaveGAN。
Diffusion Models（扩散模型）
- 新一代生成式模型，通过逐步还原噪声生成高质量音频，提升自然度和清晰度。

三、特征与表示

Mel-Spectrogram（梅尔频谱图）
- 一种常用的音频特征图，把音频的能量分布按人类听觉感知的频率划分。TTS模型通常生成这种图，再交给Vocoder还原成语音。
Pitch（音高）
- 控制声音的高低，比如普通话的四声就是典型的音高变化。
Energy（能量）
- 反映语音的响亮程度，比如强调某个词时能量会更大。
Duration（时长）
- 每个音素的发音时长，直接影响语音节奏和流畅度。
Speaker Embedding（说话人嵌入）
- 一种用向量表示说话人特征的方法，可以控制合成的声音是谁的音色。

四、系统功能相关

Zero-Shot TTS
- 不需要特定人的大量录音，仅凭一小段语音样本就能模仿其音色进行合成。
Multi-Speaker TTS
- 一个模型支持合成多种不同人的声音。
Style Transfer（风格迁移）
- 控制语音的情绪、语气，比如“开心、悲伤、疑问句”等风格。
Emotion Control（情感控制）
- 直接控制合成语音的情感色彩，比如兴奋、悲伤、愤怒。
Real-Time TTS（实时语音合成）
- 快速生成语音，达到几乎听不到延迟的程度，适合对话机器人等实时场景。

五、总结一句话：

TTS的本质就是把“文字 → 发音 → 语音特征 → 音频波形”这一系列过程做得又快又自然，既要准确读出来，还得像真人一样说话。

http://www.dtcms.com/a/186798.html

相关文章：

二叉树路径总和

【vue】全局组件及组件模块抽离

.NET 在鸿蒙系统上的适配现状

1.5 连续性与导数

SnowAdmin - 功能丰富、简单易用的开源的后台管理框架，基于 Vue3 / TypeScript / Arco Design 等技术栈打造

系统架构-通信系统架构设计

Java大师成长计划之第19天：性能调优与GC原理

[ linux-系统 ] 自动化构建工具makefile

如何通过DNS解析实现负载均衡？

2025 盘古石杯初赛 wp

Python集成开发环境之Thonny

Ubuntu中配置【Rust 镜像源】

今日行情明日机会——20250512

六、STM32 HAL库回调机制详解：从设计原理到实战应用

风车OVF镜像：解放AI开发限制的Ubuntu精简系统

如何在 Bash 中使用 =~ 操作符？

linux内存管理

【HarmonyOS 5】鸿蒙App Linking详解

理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现

方形铝壳电芯自动分选机：精准分档与高效生产的创新实践

Matlab 短时交通流预测AR模型

零碳园区能源系统-多能互补体系

IP协议、以太网包头及UNIX域套接字

1.7 方向导数

labview硬件采集＜2＞——使用布尔控件控制硬件的LED

LintCode第42题-最大子数组 II

MySQL之GET_JSON_OBJECT函数

七、基于HAL库，实现串口+DMA+状态机通信实现

居逸JY02A无刷电机驱动芯片介绍

获取高德地图JS API的安全密钥和Key的方法