当前位置: 首页 > news >正文

Speech Synthesis/Text to Speech(TTS)

TTS before end-to-end

Traditional deep learning

Input samples——Feature extraction——Feature Selection——Classifier——Output samples

End to end

Concatenative Approach拼接法

speech from a large database由于是直接分割,发音割裂,效果不好

Parametric Approach参数合成法 

基于隐马尔科夫模型

Deep Voice

三个关键组件,Grapheme to phoneme根据字母猜测发音,Duration Prediction时长预测,Fundamental Frequency Prediction基频预测,将这三个部分结合,合成语音。

Tacotron:end to end TTS

Encoder部分

通过input embedding,对于transformer是需要position encodering的,但是这里不需要。

Pre-net通常是预训练好的MLP,一般有三种作用a.全连接,特征融合;b.非线性变换;c.dropout(防止过拟合),在这里是dropout的作用。

CBHG架构包含的内容如下:

因为是序列数据,采用一维卷积,Max pooling在保留重要信息的情况下减少计算量。

Residual connection防止退化问题。

Attention:Modeling Duration建模持续时间

将文本与语音对齐的作用,输出的音频和输入的文本必须单调对齐。

Decoder

相关文章:

  • Vue2实现Office文档(docx、xlsx、pdf)在线预览
  • TCP 三次握手过程详解
  • JVM GC 分类与原理深度解析
  • 能说一下JVM的内存区域吗
  • Docker系列(四):容器操作全栈指南 —— 从入门到生产级管控
  • MongoDB 快速整合 SpringBoot 示例
  • OpenStack组件:镜像服务(Glance)安装
  • 数据的六个特性以及由于独特性产生的一些有趣的想法
  • Qt qml Network error问题
  • GitLab-CI实现自动化测试
  • 完美解决Docker镜像无法拉取问题(转载)
  • 【学习笔记】GitLab 下载安装与配置
  • 「读书报告」Spark实时大数据分析
  • 职坐标IT培训:硬件嵌入式与AI芯片开发实战
  • 开源Vue表单设计器 FcDesigner 组件提供的方法详解
  • 【更新至2023年】1985-2023年全国及各省就业人数数据(无缺失)
  • 从比分滚动到数据革命:体育数据如何重构我们的观赛体验?
  • 使用 Cannonballs 进行实用导体粗糙度建模
  • 深度学习中的卷积和反卷积
  • 制药行业数字化转型:从挑战到智能化落地的实践路径
  • 高端家具东莞网站建设技术支持/seo网站优化服务商
  • 深圳精品网站建设/免费留电话的广告
  • 做网站需要了解哪些/外包公司是正规公司吗
  • 网站建设的相关技术方案/百度网盘搜索神器
  • 江苏建设厅网站查询/靠谱的代运营公司
  • 代理国外网站/安卓手机优化软件哪个好