UnivNet论文分析(20210615)
面对问题:
1.大部分声码器采用带限mel谱生成波形,此时没有高频信息;
2.如果将高频信息输入,又会导致过平滑问题,频谱不够清晰;【个人可能原因是网络处理不好】
本文尝试采用判别器解决该问题,可保证高频细节。
本文方案:
1.提了采用LVC(局部变量卷积)核的生成器架构;
2.提了输入为频谱的判别器结构;
生成器:
输入为mel谱和随机噪声。
LVC的核由核预测器确定,实现高效的局部信息捕捉。LVC在参考文献[14]提出。
GAU[24]:增强非线性能力;
判别器架构:
上面为所提频域判别器(包括不同参数配置的stft)。下面为hifigan的mpwd。
采用mpwd的目的是改善时域细节。
训练loss:
采用GANloss和重构loss
实验结果
消融实验:
总的看来,MRSD/MPWD的影响大于LVC和GAU;还是训练方法影响大
MPWD:影响最大,0.77分;加上MSWD效果更差了?
图3结果表明:
当去除MRSD后,频谱会导致过平滑,特别是高频;那就是频域的MRSD,可以解决频谱平滑现象;
下表中,据说parallel wavegan的打分较低,且有可听见的金属音: