语音大模型速览(二)- cosyvoice
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens
本文,我们来回顾一下阿里的 cosyvoice 系列的早期工作,cosyvoice第一代,后续还会更新 cosyvoice2/3
论文链接:https://arxiv.org/pdf/2407.05407
代码链接:https://github.com/FunAudioLLM/CosyVoice
一句话总结
本文介绍了CosyVoice,这是一种可扩展的多语言零样本文本转语音合成器,其核心创新在于采用监督语义令牌(S³ tokens),该令牌通过在多语言语音识别模型编码器中插入矢量量化获得,相比现有无监督令牌,在零样本语音克隆的内容一致性和说话人相似度上表现更优。CosyVoice 由文本到令牌的大语言模型(LLM) 和令牌到语音的条件流匹配模型组成,无需额外的音素化器和强制对齐器,且利用大规模数据能进一步提升性能,是首次将监督语音令牌引入 TTS 模型的尝试。
模型结构
主要是几个部分:
- speech tokenizer ,基于asr架构训练的
- audio llm,基于GPT AR架构
- 基于 flow-matching 的流匹配的声码器(输入主要是说话人特征、语音特征、prompt 音频特征用于提高克隆效果及预测的speech token)
详细信息
核心指标
几个问题
局限与展望
(后续补充)
遗留问题
(后续补充)