当前位置：首页 > news >正文

maskgct 的升级版Metis,支持情感控制、语速调节和音色转换、扩展性进一步增强

news 2025/10/22 10:05:04

简介

Metis 是 MaskGCT 的升级版，由香港中文大学（深圳）和广州趣丸网络科技有限公司联合开发，作为 Amphion 开源平台的一部分进一步推进了语音生成技术的研究和应用。相比 MaskGCT，Metis 在功能、性能和任务支持上都有显著提升，旨在成为一个统一的、多任务的语音生成基础模型。

Metis 的背景与目标

Metis 的研发基于 MaskGCT 的成功经验，MaskGCT 是一个完全非自回归（non-autoregressive, NAR）的 TTS 模型，解决了传统 TTS 系统对显式文本-语音对齐和音素级时长预测的依赖问题。Metis 在此基础上引入了掩码生成式预训练（Masked Generative Pre-training），并扩展到支持多种语音生成任务，目标是构建一个更通用、更高效的语音生成框架。

发布日期：Metis 于 2025 年 2 月 26 日正式发布（根据 Amphion GitHub 更新记录）。
研究论文：《Metis: A Foundation Speech Generation Model with Masked Generative Pre-training》（arXiv: 2502.XXXX，具体编号待确认，提交于 2025 年初）。
核心创新：通过预训练和微调，Metis 不仅提升了零样本 TTS 的性能，还支持语音转换（Voice Conversion）、目标说话人提取（Target Speaker Extraction）、语音增强（Speech Enhancement）和唇部到语音（Lip-to-Speech）等多种任务。

技术特点与升级点

在这里插入图片描述

Metis 在 MaskGCT 的两阶段架构（文本到语义 T2S + 语义到声学 S2A）基础上进行了以下改进

掩码生成式预训练：

采用类似 BERT 的掩码预测策略，在大规模未标注语音数据上进行预训练，增强模型对语义和声学特征的泛化能力。
预训练后通过少量数据微调即可适配特定任务，减少训练成本。

多任务统一框架：

支持 TTS、语音转换、说话人提取等任务，通过共享底层生成模型实现高效复用。
例如，在语音转换中，Metis 使用轻量级模型（如 OpenVoice 的方法）对目标语音进行实时音色扰动，简化了传统方法的复杂性。

性能提升：

在 SeedTTS 测试集（英语和中文）上，Metis 的词错率（WER）、相似度（SIM）和自然度（DNSMOS）超越了 MaskGCT 和其他 SOTA 模型（如 VALL-E、CosyVoice）。
微调仅需 1K 小时数据即可媲美 MaskGCT 的 10 万小时训练效果，显示出更高的数据效率。

可控性增强：
支持情感控制、语速调节和音色转换，适用于多样化的应用场景。

实验与数据

训练数据：Metis 延续了 MaskGCT 的 Emilia 数据集（10 万小时多语言“野外”语音数据），并在预训练阶段可能使用了更广泛的未标注数据（具体细节待论文补充）。
测试结果：

在 LibriSpeech test-clean 数据集上，Metis 的 WER 和 SIM 表现优于大多数基线模型。
在目标说话人提取任务中，Metis-TSE LoRA 16 的 NISQA 分数达到 4.41（LibriMix 测试集），超过真实语音的 4.11。
语音增强任务中，Metis 通过模拟 WHAM! 和 DEMAND 噪声数据集，显著提升了语音清晰度。

在这里插入图片描述

性能对比

在这里插入图片描述

maskgct 的升级版Metis,支持情感控制、语速调节和音色转换、扩展性进一步增强

简介

Metis 的背景与目标

技术特点与升级点

实验与数据

性能对比

相关文献

相关文章：