当前位置: 首页 > news >正文

maskgct 的升级版Metis,支持情感控制、语速调节和音色转换、扩展性进一步增强

简介

Metis 是 MaskGCT 的升级版,由香港中文大学(深圳)和广州趣丸网络科技有限公司联合开发,作为 Amphion 开源平台的一部分进一步推进了语音生成技术的研究和应用。相比 MaskGCT,Metis 在功能、性能和任务支持上都有显著提升,旨在成为一个统一的、多任务的语音生成基础模型。

Metis 的背景与目标

Metis 的研发基于 MaskGCT 的成功经验,MaskGCT 是一个完全非自回归(non-autoregressive, NAR)的 TTS 模型,解决了传统 TTS 系统对显式文本-语音对齐和音素级时长预测的依赖问题。Metis 在此基础上引入了掩码生成式预训练(Masked Generative Pre-training),并扩展到支持多种语音生成任务,目标是构建一个更通用、更高效的语音生成框架。

  • 发布日期:Metis 于 2025 年 2 月 26 日正式发布(根据 Amphion GitHub 更新记录)。

  • 研究论文:《Metis: A Foundation Speech Generation Model with Masked Generative Pre-training》(arXiv: 2502.XXXX,具体编号待确认,提交于 2025 年初)。

  • 核心创新:通过预训练和微调,Metis 不仅提升了零样本 TTS 的性能,还支持语音转换(Voice Conversion)、目标说话人提取(Target Speaker Extraction)、语音增强(Speech Enhancement)和唇部到语音(Lip-to-Speech)等多种任务。

技术特点与升级点

在这里插入图片描述

Metis 在 MaskGCT 的两阶段架构(文本到语义 T2S + 语义到声学 S2A)基础上进行了以下改进

  • 掩码生成式预训练:
  1. 采用类似 BERT 的掩码预测策略,在大规模未标注语音数据上进行预训练,增强模型对语义和声学特征的泛化能力。

  2. 预训练后通过少量数据微调即可适配特定任务,减少训练成本。
    在这里插入图片描述

  • 多任务统一框架:
  1. 支持 TTS、语音转换、说话人提取等任务,通过共享底层生成模型实现高效复用。

  2. 例如,在语音转换中,Metis 使用轻量级模型(如 OpenVoice 的方法)对目标语音进行实时音色扰动,简化了传统方法的复杂性。

  • 性能提升:
  1. 在 SeedTTS 测试集(英语和中文)上,Metis 的词错率(WER)、相似度(SIM)和自然度(DNSMOS)超越了 MaskGCT 和其他 SOTA 模型(如 VALL-E、CosyVoice)。

  2. 微调仅需 1K 小时数据即可媲美 MaskGCT 的 10 万小时训练效果,显示出更高的数据效率。

  • 可控性增强:
    支持情感控制、语速调节和音色转换,适用于多样化的应用场景。

实验与数据

  • 训练数据:Metis 延续了 MaskGCT 的 Emilia 数据集(10 万小时多语言“野外”语音数据),并在预训练阶段可能使用了更广泛的未标注数据(具体细节待论文补充)。

  • 测试结果:

  1. 在 LibriSpeech test-clean 数据集上,Metis 的 WER 和 SIM 表现优于大多数基线模型。

  2. 在目标说话人提取任务中,Metis-TSE LoRA 16 的 NISQA 分数达到 4.41(LibriMix 测试集),超过真实语音的 4.11。

  3. 语音增强任务中,Metis 通过模拟 WHAM! 和 DEMAND 噪声数据集,显著提升了语音清晰度。

在这里插入图片描述

性能对比

在这里插入图片描述

相关文献

arxv:https://arxiv.org/pdf/2502.03128
github地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/metis

相关文章:

  • UniApp Vue 3 中的网络请求封装及用法
  • 在 Java 中调用 ChatGPT API 并实现流式接收(Server-Sent Events, SSE)
  • Github上一些使用技巧(缩写、Issue的Highlight)自用
  • 数学知识——分解质因数
  • 蓝桥杯嵌入式16届 —— 按键模块
  • 数据库管理-第311期 不同数据库的存算分离有何不同(20250407)
  • 【Android Sdk】uiautomatorviewer.bats闪退问题如何解决?
  • C++标准库 —— round 函数用法详解
  • 【DeepSeek原理学习2】MLA 多头隐变量注意力
  • elasticSearch-搜索引擎
  • P2036 [COCI 2008/2009 #2] PERKET
  • 【Linux篇】基础IO - 揭秘重定向与缓冲区的管理机制
  • RFID警用装备柜|快速实现装备借出归还
  • 数学建模全解析-新能源汽车动力性与经济性优化
  • 关于Spring MVC中@RequestMapping注解的详细解析,涵盖其核心功能、属性、使用场景及最佳实践
  • [ctfshow web入门] web9
  • SQL121 创建索引
  • 机器学习核心概念、算法分类与应用场景全解析
  • Meta 最新发布的 Llama 4:多模态开源大模型全面解析
  • Spring MVC 的执行流程以及运行原理