当前位置：首页 > news >正文

语音大模型速览（一）F5-TTS

news 2025/7/5 19:21:12

F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

论文链接：https://arxiv.org/pdf/2410.06885
代码链接：https://SWivid.github.io/F5-TTS/

一段话总结

本文提出了 F5-TTS，一种基于流匹配和扩散 Transformer（DiT）的全非自回归文本到语音系统，它无需复杂的时长模型、文本编码器和音素对齐，通过 ConvNeXt 优化文本表示并引入推理时的 Sway Sampling 策略，解决了 E2 TTS 收敛慢和鲁棒性低的问题，实现了更快的训练和推理（RTF 达 0.15），在 10 万小时多语言数据集上训练后，展现出高度自然的零样本能力、无缝代码切换和速度控制效率，且已开源代码和检查点。

在这里插入图片描述

模型结构

详细信息

在这里插入图片描述

核心指标

在这里插入图片描述

几个问题

字符和音频的时长对齐是怎么解决的？

在这里插入图片描述

noise speech masked speech 和 characters 这几个部分细节上是怎么融入模型的？

在这里插入图片描述

局限与展望

在这里插入图片描述

遗留问题

通过直接尾部 padding 的方式，会导致句子头尾的字符与音频头尾的依赖关系不一致，感觉类似于时长扩展的方式可能会更好？
masked speech（掩码语音）主要是提供了音频 prompt 信息？但是直接mask中间部分，头尾的保留部分会导致信息泄露，是的音频prompt和文本内容不解耦？
这种通过token（character ）和 mel 长度的比值关系来预估推理音频长度，是否合理？会存在什么其他问题吗？

查看全文

http://www.dtcms.com/a/266995.html