当前位置: 首页 > news >正文

UnivNet论文分析(20210615)

面对问题:

1.大部分声码器采用带限mel谱生成波形,此时没有高频信息;
2.如果将高频信息输入,又会导致过平滑问题,频谱不够清晰;【个人可能原因是网络处理不好】

本文尝试采用判别器解决该问题,可保证高频细节。

本文方案:

1.提了采用LVC(局部变量卷积)核的生成器架构;

2.提了输入为频谱的判别器结构;

生成器:

输入为mel谱和随机噪声。

LVC的核由核预测器确定,实现高效的局部信息捕捉。LVC在参考文献[14]提出。

GAU[24]:增强非线性能力;

判别器架构:

上面为所提频域判别器(包括不同参数配置的stft)。下面为hifigan的mpwd。

采用mpwd的目的是改善时域细节。

训练loss:

采用GANloss和重构loss

实验结果

消融实验:

总的看来,MRSD/MPWD的影响大于LVC和GAU;还是训练方法影响大
MPWD:影响最大,0.77分;加上MSWD效果更差了?

图3结果表明:
当去除MRSD后,频谱会导致过平滑,特别是高频;那就是频域的MRSD,可以解决频谱平滑现象;

下表中,据说parallel wavegan的打分较低,且有可听见的金属音:

http://www.dtcms.com/a/320318.html

相关文章:

  • Flutter报错...Unsupported class file major version 65
  • 接口测试-mock测试
  • sigfillset 函数详解
  • Dash 中的 dcc.Clipboard 组件详解:实现一键复制功能
  • Caffeine 三种过期策略详解
  • Git 文件删除操作指南:管理与恢复已删除文件
  • python---pass函数
  • 【沉浸式解决问题】mysql-connector-python连接数据库:RuntimeError: Failed raising error.
  • React.memo
  • 【C#补全计划:类和对象(十)】密封
  • 阿里云可观测 2025 年 7 月产品动态
  • MCU中的USB
  • 虚拟乐队“天鹅绒落日”:AI生成音乐引发的行业风暴
  • STM32——STM32CubeMX
  • 【华为机试】113. 路径总和 II
  • Java异常处理机制深度解析:构建健壮程序的核心
  • C++ AVL树实现详解:理论+代码+图解
  • 使用Cloud Document Converter将飞书文档导出为markdown
  • 神经网络中一般都包含哪些关键层,每一层的作用是什么?
  • Gemini-CLI-项目原理流程总结
  • 大模型2位量化原理解析
  • Redis面试精讲 Day 16:Redis性能监控与分析工具
  • Microsoft Office PowerPoint 制作简单的游戏素材
  • 腾讯位置服务 —— 预估订单路线金额(使用Drools规则引擎处理)
  • Gitee上免费搭建博客
  • 基于C++深度学习 (NCNN、MNN、OpenVINO)OpenCV 等实践
  • 第二集 测试概念
  • 8月7号打卡
  • python---函数的形参与实参
  • C++的入门学习