当前位置：首页 > news >正文

UnivNet论文分析（20210615）

news 2025/10/12 6:23:34

面对问题：

1.大部分声码器采用带限mel谱生成波形，此时没有高频信息；
2.如果将高频信息输入，又会导致过平滑问题，频谱不够清晰；【个人可能原因是网络处理不好】

本文尝试采用判别器解决该问题，可保证高频细节。

本文方案：

1.提了采用LVC（局部变量卷积）核的生成器架构；

2.提了输入为频谱的判别器结构；

生成器：

输入为mel谱和随机噪声。

LVC的核由核预测器确定，实现高效的局部信息捕捉。LVC在参考文献[14]提出。

GAU[24]：增强非线性能力；

判别器架构：

上面为所提频域判别器（包括不同参数配置的stft）。下面为hifigan的mpwd。

采用mpwd的目的是改善时域细节。

训练loss:

采用GANloss和重构loss

实验结果

消融实验：

总的看来，MRSD/MPWD的影响大于LVC和GAU;还是训练方法影响大
MPWD：影响最大，0.77分；加上MSWD效果更差了？

图3结果表明：
当去除MRSD后，频谱会导致过平滑，特别是高频；那就是频域的MRSD，可以解决频谱平滑现象；

下表中，据说parallel wavegan的打分较低，且有可听见的金属音：

查看全文

http://www.dtcms.com/a/320318.html

Flutter报错...Unsupported class file major version 65

接口测试-mock测试

sigfillset 函数详解

Dash 中的 dcc.Clipboard 组件详解：实现一键复制功能

Caffeine 三种过期策略详解

Git 文件删除操作指南：管理与恢复已删除文件

python---pass函数

【沉浸式解决问题】mysql-connector-python连接数据库：RuntimeError: Failed raising error.

React.memo

【C#补全计划：类和对象（十）】密封

阿里云可观测 2025 年 7 月产品动态

MCU中的USB

虚拟乐队“天鹅绒落日”：AI生成音乐引发的行业风暴

STM32——STM32CubeMX

【华为机试】113. 路径总和 II

Java异常处理机制深度解析：构建健壮程序的核心

C++ AVL树实现详解：理论+代码+图解

使用Cloud Document Converter将飞书文档导出为markdown

神经网络中一般都包含哪些关键层，每一层的作用是什么？

Gemini-CLI-项目原理流程总结

大模型2位量化原理解析

Redis面试精讲 Day 16：Redis性能监控与分析工具

Microsoft Office PowerPoint 制作简单的游戏素材

腾讯位置服务 —— 预估订单路线金额（使用Drools规则引擎处理）

Gitee上免费搭建博客

基于C++深度学习（NCNN、MNN、OpenVINO）OpenCV 等实践

第二集测试概念

8月7号打卡

python---函数的形参与实参

C++的入门学习