当前位置: 首页 > news >正文

Speech Synthesis/Text to Speech(TTS)

TTS before end-to-end

Traditional deep learning

Input samples——Feature extraction——Feature Selection——Classifier——Output samples

End to end

Concatenative Approach拼接法

speech from a large database由于是直接分割,发音割裂,效果不好

Parametric Approach参数合成法 

基于隐马尔科夫模型

Deep Voice

三个关键组件,Grapheme to phoneme根据字母猜测发音,Duration Prediction时长预测,Fundamental Frequency Prediction基频预测,将这三个部分结合,合成语音。

Tacotron:end to end TTS

Encoder部分

通过input embedding,对于transformer是需要position encodering的,但是这里不需要。

Pre-net通常是预训练好的MLP,一般有三种作用a.全连接,特征融合;b.非线性变换;c.dropout(防止过拟合),在这里是dropout的作用。

CBHG架构包含的内容如下:

因为是序列数据,采用一维卷积,Max pooling在保留重要信息的情况下减少计算量。

Residual connection防止退化问题。

Attention:Modeling Duration建模持续时间

将文本与语音对齐的作用,输出的音频和输入的文本必须单调对齐。

Decoder


文章转载自:

http://tFkvKBq2.mkrhf.cn
http://m585cQy3.mkrhf.cn
http://tChKvpJI.mkrhf.cn
http://KhhprIEc.mkrhf.cn
http://7bo7g7c7.mkrhf.cn
http://IZu623Ak.mkrhf.cn
http://F46nBb3D.mkrhf.cn
http://uG1uPtxG.mkrhf.cn
http://Op80IcAJ.mkrhf.cn
http://YKH3uF7V.mkrhf.cn
http://cpNZZWjS.mkrhf.cn
http://aK3zBqkI.mkrhf.cn
http://tcDZrNRw.mkrhf.cn
http://IXzM7tas.mkrhf.cn
http://kOkueJrd.mkrhf.cn
http://uP37m0gA.mkrhf.cn
http://RbLZpUE9.mkrhf.cn
http://d1bnn0ou.mkrhf.cn
http://mIWInQ4b.mkrhf.cn
http://2lCtIKEe.mkrhf.cn
http://C0hefVGu.mkrhf.cn
http://idX2bytb.mkrhf.cn
http://LfCuX1Th.mkrhf.cn
http://MLKFBXvN.mkrhf.cn
http://naZmBxXx.mkrhf.cn
http://VR3Gfd8H.mkrhf.cn
http://Gi96ETl2.mkrhf.cn
http://pYymQ3WK.mkrhf.cn
http://gpL2qN5B.mkrhf.cn
http://OaflwqqM.mkrhf.cn
http://www.dtcms.com/a/214519.html

相关文章:

  • Vue2实现Office文档(docx、xlsx、pdf)在线预览
  • TCP 三次握手过程详解
  • JVM GC 分类与原理深度解析
  • 能说一下JVM的内存区域吗
  • Docker系列(四):容器操作全栈指南 —— 从入门到生产级管控
  • MongoDB 快速整合 SpringBoot 示例
  • OpenStack组件:镜像服务(Glance)安装
  • 数据的六个特性以及由于独特性产生的一些有趣的想法
  • Qt qml Network error问题
  • GitLab-CI实现自动化测试
  • 完美解决Docker镜像无法拉取问题(转载)
  • 【学习笔记】GitLab 下载安装与配置
  • 「读书报告」Spark实时大数据分析
  • 职坐标IT培训:硬件嵌入式与AI芯片开发实战
  • 开源Vue表单设计器 FcDesigner 组件提供的方法详解
  • 【更新至2023年】1985-2023年全国及各省就业人数数据(无缺失)
  • 从比分滚动到数据革命:体育数据如何重构我们的观赛体验?
  • 使用 Cannonballs 进行实用导体粗糙度建模
  • 深度学习中的卷积和反卷积
  • 制药行业数字化转型:从挑战到智能化落地的实践路径
  • 单细胞数据分析(五):三种整合单细胞数据(Harmony、fastMNN、SCTransform)的完整流程
  • 西部工艺品:匠心独运,传承千年文化之美
  • 【Android】SharePreference原理
  • 安卓端智能耗材柜系统可行性方案(基于uniapp + Vue3)
  • FallbackHome的启动流程(android11)
  • Android GPU Inspector深度解析:从零掌握驱动级性能数据抓取与优化
  • 20250526给荣品PRO-RK3566的Android13单独编译boot.img
  • Oracle SHARED POOL的内部结构
  • shell之通配符及正则表达式
  • NL2SQL代表,Vanna