当前位置：首页 > news >正文

huggingface 热门开源TTS模型Dia-1.6B，支持多人对话生成、情感控制～

news 2025/7/1 15:30:04

简介

在这里插入图片描述

Dia-1.6B 是一款由 Nari Labs 开发的开源文本转语音（TTS）模型，专注于生成自然对话。其项目背景和模型架构基于近期可用的网络信息进行了详细分析，以下是全面的报告。

项目背景概述

Dia-1.6B 的开发始于 Nari Labs，这是一个由两名研究工程师 Toby Kim 和 Jay 组成的小团队。他们的灵感来源于 NotebookLM 的播客功能，但发现其声音和内容在长期使用中显得重复，因此决定开发一个能生成更自然人类对话的 TTS 模型。尽管团队在语音模型领域没有经验，他们通过自学掌握了大规模训练和音频标记化等技术，并在约三个月内完成了模型训练。

该模型发布于 2025 年 4 月，采用 Apache 2.0 许可证，旨在支持研究和教育用途，但明确禁止身份欺骗、欺诈性内容或非法/恶意使用。Dia-1.6B 托管在 Hugging Face，提供预训练检查点和推理代码，方便研究者使用。此外，团队还提供了一个演示页面，与商业解决方案如 ElevenLabs Studio 和 Sesame CSM-1B 进行比较，网址为演示页面。用户还可以通过 ZeroGPU Space 在线试用模型。

团队通过 Discord 服务器（Discord 链接）提供社区支持，并欢迎贡献者参与讨论。他们还为更大版本的模型设立了早期访问等待列表（等待列表）。截至 2025 年 5 月，该模型上个月下载量已达 108,873 次，显示其社区接受度。

模型架构分析

Dia-1.6B 是一个 16 亿参数的 TTS 模型，其架构细节尚未在正式技术报告中公开，但通过开源代码和相关讨论可以推测其设计。以下是关键技术特点：

参数规模和性能：模型总参数为 16 亿，使用 F32 张量类型，运行需要约 10GB VRAM。测试显示，在 A4000 GPU 上，生成速度约为 40 标记/秒，其中 86 标记对应 1 秒音频。使用 torch.compile 可进一步提升支持 GPU 的推理速度。未来计划推出量化版本以降低内存需求。
架构类型：研究表明，Dia-1.6B 可能基于扩散模型架构，灵感来源于 SoundStorm（Google 的音频生成模型）和 Parakeet（Nvidia 和 Suno.ai 的语音识别模型）。这与模型使用 Classifier-Free Guidance (CFG) 的信息一致，CFG 是一种常用于扩散模型的加速技术，无需额外训练即可提升推理速度。

核心功能

单次对话生成：与传统 TTS 模型不同，Dia-1.6B 能一次性生成整个对话，而不是逐个生成并拼接。这种方法使其更快速、更自然，特别适合对话生成任务。
音频条件控制：用户可通过音频提示引导模型输出，控制情感和语气。例如，提供参考音频样本和转录文本，模型可模仿该声音特征或调整情感基调。
零样本语音克隆：模型能从简短音频样本中零样本克隆语音，无需额外训练，增强其灵活性。
非言语声音生成：支持生成笑声、咳嗽、清喉咙等非言语声音，直接从文本提示中产生，增加了真实感。
多说话人支持：通过简单文本标签（如 [S1] 和 [S2]）区分不同说话人，生成自然的多说话人对话。
技术灵感与比较：Dia-1.6B 的设计受到 SoundStorm 和 Parakeet 的启发，可能是结合了文本处理（可能基于变压器架构）和音频生成（扩散模型）的混合系统。变压器元素可能类似于其他模型如 sana-sprint-1.6b，但具体层数和配置未公开。团队计划在未来更大模型中引入 Mixture of Experts (MoE) 和 Sliding Window Attention，以提升效率和可扩展性。

详细技术指标

在这里插入图片描述

huggingface 热门开源TTS模型Dia-1.6B，支持多人对话生成、情感控制～

简介

项目背景概述

模型架构分析

核心功能

详细技术指标

看看效果

相关文献

相关文章：