maskgct 的升级版Metis,支持情感控制、语速调节和音色转换、扩展性进一步增强
简介
Metis 是 MaskGCT 的升级版,由香港中文大学(深圳)和广州趣丸网络科技有限公司联合开发,作为 Amphion 开源平台的一部分进一步推进了语音生成技术的研究和应用。相比 MaskGCT,Metis 在功能、性能和任务支持上都有显著提升,旨在成为一个统一的、多任务的语音生成基础模型。
Metis 的背景与目标
Metis 的研发基于 MaskGCT 的成功经验,MaskGCT 是一个完全非自回归(non-autoregressive, NAR)的 TTS 模型,解决了传统 TTS 系统对显式文本-语音对齐和音素级时长预测的依赖问题。Metis 在此基础上引入了掩码生成式预训练(Masked Generative Pre-training),并扩展到支持多种语音生成任务,目标是构建一个更通用、更高效的语音生成框架。
-
发布日期:Metis 于 2025 年 2 月 26 日正式发布(根据 Amphion GitHub 更新记录)。
-
研究论文:《Metis: A Foundation Speech Generation Model with Masked Generative Pre-training》(arXiv: 2502.XXXX,具体编号待确认,提交于 2025 年初)。
-
核心创新:通过预训练和微调,Metis 不仅提升了零样本 TTS 的性能,还支持语音转换(Voice Conversion)、目标说话人提取(Target Speaker Extraction)、语音增强(Speech Enhancement)和唇部到语音(Lip-to-Speech)等多种任务。
技术特点与升级点
Metis 在 MaskGCT 的两阶段架构(文本到语义 T2S + 语义到声学 S2A)基础上进行了以下改进
- 掩码生成式预训练:
-
采用类似 BERT 的掩码预测策略,在大规模未标注语音数据上进行预训练,增强模型对语义和声学特征的泛化能力。
-
预训练后通过少量数据微调即可适配特定任务,减少训练成本。
- 多任务统一框架:
-
支持 TTS、语音转换、说话人提取等任务,通过共享底层生成模型实现高效复用。
-
例如,在语音转换中,Metis 使用轻量级模型(如 OpenVoice 的方法)对目标语音进行实时音色扰动,简化了传统方法的复杂性。
- 性能提升:
-
在 SeedTTS 测试集(英语和中文)上,Metis 的词错率(WER)、相似度(SIM)和自然度(DNSMOS)超越了 MaskGCT 和其他 SOTA 模型(如 VALL-E、CosyVoice)。
-
微调仅需 1K 小时数据即可媲美 MaskGCT 的 10 万小时训练效果,显示出更高的数据效率。
- 可控性增强:
支持情感控制、语速调节和音色转换,适用于多样化的应用场景。
实验与数据
-
训练数据:Metis 延续了 MaskGCT 的 Emilia 数据集(10 万小时多语言“野外”语音数据),并在预训练阶段可能使用了更广泛的未标注数据(具体细节待论文补充)。
-
测试结果:
-
在 LibriSpeech test-clean 数据集上,Metis 的 WER 和 SIM 表现优于大多数基线模型。
-
在目标说话人提取任务中,Metis-TSE LoRA 16 的 NISQA 分数达到 4.41(LibriMix 测试集),超过真实语音的 4.11。
-
语音增强任务中,Metis 通过模拟 WHAM! 和 DEMAND 噪声数据集,显著提升了语音清晰度。
性能对比
相关文献
arxv:https://arxiv.org/pdf/2502.03128
github地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/metis