当前位置：首页 > news >正文

语音大模型速览（二）- cosyvoice

news 2025/11/12 10:26:48

CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

本文，我们来回顾一下阿里的 cosyvoice 系列的早期工作，cosyvoice第一代，后续还会更新 cosyvoice2/3

论文链接：https://arxiv.org/pdf/2407.05407
代码链接：https://github.com/FunAudioLLM/CosyVoice

一句话总结

本文介绍了CosyVoice，这是一种可扩展的多语言零样本文本转语音合成器，其核心创新在于采用监督语义令牌（S³ tokens），该令牌通过在多语言语音识别模型编码器中插入矢量量化获得，相比现有无监督令牌，在零样本语音克隆的内容一致性和说话人相似度上表现更优。CosyVoice 由文本到令牌的大语言模型（LLM）和令牌到语音的条件流匹配模型组成，无需额外的音素化器和强制对齐器，且利用大规模数据能进一步提升性能，是首次将监督语音令牌引入 TTS 模型的尝试。

在这里插入图片描述

模型结构

在这里插入图片描述
主要是几个部分：

speech tokenizer ，基于asr架构训练的
audio llm，基于GPT AR架构
基于 flow-matching 的流匹配的声码器（输入主要是说话人特征、语音特征、prompt 音频特征用于提高克隆效果及预测的speech token）

详细信息

在这里插入图片描述

核心指标

在这里插入图片描述

几个问题

在这里插入图片描述

局限与展望

（后续补充）

遗留问题

（后续补充）

http://www.dtcms.com/a/271311.html

相关文章：

Flink-1.19.0源码详解-番外补充4-JobGraph图

Ubuntu 下 MySql 使用

qt-C++笔记之布局管理`space` 和 `margin`的区别

SQL注入与防御-第六章-3：利用操作系统--巩固访问

kbmMemTable Pro 7.82 Delphi 11 源代码

Spectre（幽灵漏洞）是什么？

Python-FAQ-单例模式

MyBatis之数据操作增删改查基础全解

Java常用设计模式大全

Kubernetes 存储入门

HTTP请求走私漏洞

【Python】FastApi

P1009 [NOIP 1998 普及组] 阶乘之和

HashMap中get()、put()详解

代码审计-shiro漏洞分析

Explain关键字

rt thread studio 和 KEIL对于使用rt thread 的中间件和组件，哪个更方便

Flask3.1打造极简CMS系统

VsCode 接入Continue 远程调用（持续扩展 + DeepSeek R1）— 免本地算力

ZECN致业：科创微光，照亮技术新征程

200nl2sql

Linux建立本地软件仓库

存储服务一NFS文件存储概述

解锁HTML5页面生命周期API：前端开发的新视角

debug和release的区别，打印菱形，水仙花数，喝汽水问题，计算求和

从互联网电脑迁移Dify到内网部署Dify方法记录

语音识别核心模型的数学原理和公式

http get和http post的区别

【软件工程】tob和toc含义理解

【25软考网工】第十章（3）网络冗余设计、广域网接入技术