当前位置: 首页 > news >正文

语音大模型速览(二)- cosyvoice

CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

本文,我们来回顾一下阿里的 cosyvoice 系列的早期工作,cosyvoice第一代,后续还会更新 cosyvoice2/3

论文链接:https://arxiv.org/pdf/2407.05407
代码链接:https://github.com/FunAudioLLM/CosyVoice

一句话总结

本文介绍了CosyVoice,这是一种可扩展的多语言零样本文本转语音合成器,其核心创新在于采用监督语义令牌(S³ tokens),该令牌通过在多语言语音识别模型编码器中插入矢量量化获得,相比现有无监督令牌,在零样本语音克隆的内容一致性和说话人相似度上表现更优。CosyVoice 由文本到令牌的大语言模型(LLM) 和令牌到语音的条件流匹配模型组成,无需额外的音素化器和强制对齐器,且利用大规模数据能进一步提升性能,是首次将监督语音令牌引入 TTS 模型的尝试。

在这里插入图片描述

模型结构

在这里插入图片描述
主要是几个部分:

  1. speech tokenizer ,基于asr架构训练的
  2. audio llm,基于GPT AR架构
  3. 基于 flow-matching 的流匹配的声码器(输入主要是说话人特征、语音特征、prompt 音频特征用于提高克隆效果及预测的speech token)

详细信息

在这里插入图片描述
在这里插入图片描述

核心指标

在这里插入图片描述

几个问题

在这里插入图片描述

局限与展望

(后续补充)

遗留问题

(后续补充)

http://www.dtcms.com/a/271311.html

相关文章:

  • Flink-1.19.0源码详解-番外补充4-JobGraph图
  • Ubuntu 下 MySql 使用
  • qt-C++笔记之布局管理`space` 和 `margin`的区别
  • SQL注入与防御-第六章-3:利用操作系统--巩固访问
  • kbmMemTable Pro 7.82 Delphi 11 源代码
  • Spectre(幽灵漏洞)是什么?
  • Python-FAQ-单例模式
  • MyBatis之数据操作增删改查基础全解
  • Java常用设计模式大全
  • Kubernetes 存储入门
  • HTTP请求走私漏洞
  • 【Python】FastApi
  • P1009 [NOIP 1998 普及组] 阶乘之和
  • HashMap中get()、put()详解
  • 代码审计-shiro漏洞分析
  • Explain关键字
  • rt thread studio 和 KEIL对于使用rt thread 的中间件和组件,哪个更方便
  • Flask3.1打造极简CMS系统
  • VsCode 接入Continue 远程调用(持续扩展 + DeepSeek R1)— 免本地算力
  • ZECN致业:科创微光,照亮技术新征程
  • 200nl2sql
  • Linux建立本地软件仓库
  • 存储服务一NFS文件存储概述
  • 解锁HTML5页面生命周期API:前端开发的新视角
  • debug和release的区别,打印菱形,水仙花数,喝汽水问题,计算求和
  • 从互联网电脑迁移Dify到内网部署Dify方法记录
  • 语音识别核心模型的数学原理和公式
  • http get和http post的区别
  • 【软件工程】tob和toc含义理解
  • 【25软考网工】第十章 (3)网络冗余设计、广域网接入技术