当前位置：首页 > news >正文

Speech Synthesis/Text to Speech(TTS)

news 来源：原创 2025/6/13 10:01:54

TTS before end-to-end

Traditional deep learning

Input samples——Feature extraction——Feature Selection——Classifier——Output samples

End to end

Concatenative Approach拼接法

speech from a large database由于是直接分割，发音割裂，效果不好

Parametric Approach参数合成法

基于隐马尔科夫模型

Deep Voice

三个关键组件，Grapheme to phoneme根据字母猜测发音，Duration Prediction时长预测，Fundamental Frequency Prediction基频预测，将这三个部分结合，合成语音。

Tacotron:end to end TTS

Encoder部分

通过input embedding，对于transformer是需要position encodering的，但是这里不需要。

Pre-net通常是预训练好的MLP，一般有三种作用a.全连接，特征融合；b.非线性变换；c.dropout（防止过拟合），在这里是dropout的作用。

CBHG架构包含的内容如下：

因为是序列数据，采用一维卷积，Max pooling在保留重要信息的情况下减少计算量。

Residual connection防止退化问题。

Attention：Modeling Duration建模持续时间

将文本与语音对齐的作用，输出的音频和输入的文本必须单调对齐。

Decoder

Vue2实现Office文档（docx、xlsx、pdf）在线预览

TCP 三次握手过程详解

JVM GC 分类与原理深度解析

能说一下JVM的内存区域吗

Docker系列（四）：容器操作全栈指南 —— 从入门到生产级管控

MongoDB 快速整合 SpringBoot 示例

OpenStack组件：镜像服务（Glance）安装

数据的六个特性以及由于独特性产生的一些有趣的想法

Qt qml Network error问题

GitLab-CI实现自动化测试

完美解决Docker镜像无法拉取问题（转载）

【学习笔记】GitLab 下载安装与配置

「读书报告」Spark实时大数据分析

职坐标IT培训：硬件嵌入式与AI芯片开发实战

开源Vue表单设计器 FcDesigner 组件提供的方法详解

【更新至2023年】1985-2023年全国及各省就业人数数据（无缺失）

从比分滚动到数据革命：体育数据如何重构我们的观赛体验？

使用 Cannonballs 进行实用导体粗糙度建模

深度学习中的卷积和反卷积

制药行业数字化转型：从挑战到智能化落地的实践路径

高端家具东莞网站建设技术支持/seo网站优化服务商

相关文章：