当前位置: 首页 > news >正文

【TTS学习笔记】:语音合成领域基本术语

一、基础术语

  1. TTS (Text-to-Speech)
    • 文本转语音,把输入的文字自动转换成语音的技术。
  2. G2P (Grapheme-to-Phoneme)
    • 把文字(字母/汉字)转换成对应的音素(发音单位),比如“Hello”转成 [h ə l oʊ]
  3. Phoneme(音素)
    • 语言中最小的发音单位,TTS必须先知道要怎么发音才能合成语音。
  4. Prosody(韵律)
    • 包括重音、语调、节奏、停顿等,用来让合成语音听起来更自然。
  5. Voice Cloning(声音克隆)
    • 模拟特定人的声音进行语音合成,可以“复刻”某个说话人的音色。

二、模型与算法

  1. Tacotron 2
    • 经典的TTS模型,把文字直接转换成梅尔频谱图,再通过Vocoder生成音频。
  2. FastSpeech
    • 一种速度更快、效果不错的端到端TTS模型,通过非自回归方式提升合成效率。
  3. VITS
    • 当前非常流行的TTS模型,结合了语音合成和语音风格控制,效果自然且无需单独的Vocoder。
  4. Vocoder
    • 把模型输出的“频谱图”等中间特征转换成真正的声音波形。常见的有HiFi-GAN、WaveNet、Parallel WaveGAN
  5. Diffusion Models(扩散模型)
    • 新一代生成式模型,通过逐步还原噪声生成高质量音频,提升自然度和清晰度。

三、特征与表示

  1. Mel-Spectrogram(梅尔频谱图)
    • 一种常用的音频特征图,把音频的能量分布按人类听觉感知的频率划分。TTS模型通常生成这种图,再交给Vocoder还原成语音。
  2. Pitch(音高)
    • 控制声音的高低,比如普通话的四声就是典型的音高变化。
  3. Energy(能量)
    • 反映语音的响亮程度,比如强调某个词时能量会更大。
  4. Duration(时长)
    • 每个音素的发音时长,直接影响语音节奏和流畅度。
  5. Speaker Embedding(说话人嵌入)
    • 一种用向量表示说话人特征的方法,可以控制合成的声音是谁的音色。

四、系统功能相关

  1. Zero-Shot TTS
    • 不需要特定人的大量录音,仅凭一小段语音样本就能模仿其音色进行合成。
  2. Multi-Speaker TTS
    • 一个模型支持合成多种不同人的声音。
  3. Style Transfer(风格迁移)
    • 控制语音的情绪、语气,比如“开心、悲伤、疑问句”等风格。
  4. Emotion Control(情感控制)
    • 直接控制合成语音的情感色彩,比如兴奋、悲伤、愤怒。
  5. Real-Time TTS(实时语音合成)
    • 快速生成语音,达到几乎听不到延迟的程度,适合对话机器人等实时场景。

五、总结一句话:

TTS的本质就是把“文字 → 发音 → 语音特征 → 音频波形”这一系列过程做得又自然,既要准确读出来,还得像真人一样说话。

相关文章:

  • 二叉树路径总和
  • 【vue】全局组件及组件模块抽离
  • .NET 在鸿蒙系统上的适配现状
  • 1.5 连续性与导数
  • SnowAdmin - 功能丰富、简单易用的开源的后台管理框架,基于 Vue3 / TypeScript / Arco Design 等技术栈打造
  • 系统架构-通信系统架构设计
  • Java大师成长计划之第19天:性能调优与GC原理
  • [ linux-系统 ] 自动化构建工具makefile
  • 如何通过DNS解析实现负载均衡?
  • 2025 盘古石杯初赛 wp
  • Python集成开发环境之Thonny
  • Ubuntu中配置【Rust 镜像源】
  • 今日行情明日机会——20250512
  • 六、STM32 HAL库回调机制详解:从设计原理到实战应用
  • 风车OVF镜像:解放AI开发限制的Ubuntu精简系统
  • 如何在 Bash 中使用 =~ 操作符 ?
  • linux内存管理
  • 【HarmonyOS 5】鸿蒙App Linking详解
  • 理解多智能体深度确定性策略梯度MADDPG算法:基于python从零实现
  • 方形铝壳电芯自动分选机:精准分档与高效生产的创新实践
  • 上海国际电影节特设“今日亚洲”单元
  • 在地球另一端的交流,架起2万公里间更多共赢的桥梁
  • 上海工匠学院首届学历班56人毕业,新一届拟招生200人
  • 马克龙称法英正与乌克兰商议“在乌部署欧洲军队”
  • 宜昌全域高质量发展:机制创新与产业重构的双向突围
  • 兵韬志略|美2026国防预算未达1万亿,但仍寻求“暗度陈仓”