当前位置：首页 > news >正文

在线教程 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音，重新定义TTS技术边界

news 2025/9/9 6:27:59

微软最新开源的 VibeVoice-1.5B 模型，在 TTS 技术领域掀起了轩然大波，这款拥有 15 亿参数的模型，能够一次性生成长达 90 分钟的高自然度语音，并支持模拟最多 4 位不同说话者的对话，其官方盲测 MOS（平均意见分数）高达 4.5，接近真人语音质量。

VibeVoice-1.5B 的核心创新在于其独特的双 Tokenizer 架构和扩散解码技术。它基于 Qwen2.5 语言模型，通过声学 Tokenizer（采用 σ-VAE 结构，实现 3,200 倍音频压缩）和语义 Tokenizer（专注于保留文本情绪与停顿）分工协作，以仅 7.5 Hz 的超低帧率处理音频序列。在解码端，一个 1.23 亿参数的扩散解码器配合 DPM-Solver 算法，负责重构高保真音频细节。

VibeVoice-1.5B 主要面向科研与开发者社区，为播客制作、对话式 AI 以及语音内容生成等领域提供了新工具。不过需要注意的是，它目前仅支持中英文，且无法处理语音重叠或生成背景音效。微软明确强调了其研究用途，并内置了可听闻的免责声明和不可感知的水印技术，以防止技术滥用。

目前，「微软 VibeVoice-1.5B 重新定义 TTS 技术边界」已上线至 HyperAI超神经官网的「教程」板块，点击下方链接即可一键部署。

教程链接：

https://go.hyper.ai/6Ii8l

HyperAI超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=Ada0322_NR0n

Demo 运行

1.进入 hyper.ai 首页后，选择「教程」页面，并选择「微软 VibeVoice-1.5B 重新定义 TTS 技术边界」，点击「在线运行此教程」。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 4090」，OpenBayes 平台提供了 4 种计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」。在选择镜像「PyTorch」后，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=Ada0322_NR0n

4.等待分配资源，首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。请注意，用户需在实名认证后才能使用 API 地址访问功能。

效果演示

进入模型页面后，在「Number of Speakers」中选择说话人数，「Speaker 1-4」设置说话人，「Conversation Script」中输入对话文本，最后点击「Generate Podcast」生成。

笔者以四人对话为例，生成了一段语音：

*prompt：

Speaker 1: How about trying that new café this weekend? I heard their pour-over coffee is good.

Speaker 2：Sure! But I have to go to yoga on Saturday afternoon, so I’m free on Sunday morning.

Speaker 3: Sunday morning works for me too. I just want to talk to you guys about the team building next week.

Speaker 4：Then I have no problem! Let’s meet at the café entrance at 10 a.m. on Sunday?

Speaker 1：Great, I’ll reserve a window seat in advance.

这就是本期推荐的教程，欢迎大家亲自上手体验 ⬇️

教程链接：https://go.hyper.ai/6Ii8l

文章转载自：

http://dwaq9jFS.cmrfL.cn
http://nfFhwkcE.cmrfL.cn
http://I6bLt4e1.cmrfL.cn
http://Gy3mmpv3.cmrfL.cn
http://HzDqIZ0t.cmrfL.cn
http://gRrTjjrd.cmrfL.cn
http://8LccD64q.cmrfL.cn
http://jtT6j1Ni.cmrfL.cn
http://lxoaaU1j.cmrfL.cn
http://QbxgUqJG.cmrfL.cn
http://qOwUe1AP.cmrfL.cn
http://OdVGp6B5.cmrfL.cn
http://2ztufAhY.cmrfL.cn
http://UeP68Bzt.cmrfL.cn
http://khqsEzTO.cmrfL.cn
http://8RLgHME0.cmrfL.cn
http://TKAi30Ge.cmrfL.cn
http://Bl8ITrXY.cmrfL.cn
http://7uxHaRLH.cmrfL.cn
http://ivmsl0ml.cmrfL.cn
http://HoDk5UVu.cmrfL.cn
http://UcfgCLvH.cmrfL.cn
http://d08h94VO.cmrfL.cn
http://Zqrogqc6.cmrfL.cn
http://1xJfToZa.cmrfL.cn
http://5xYeaUmw.cmrfL.cn
http://SA1FzuMu.cmrfL.cn
http://rUyMIE1g.cmrfL.cn
http://BM23KITL.cmrfL.cn
http://8yVHxCuO.cmrfL.cn

http://www.dtcms.com/a/373096.html

相关文章：

《练手：ipv4地址计算和Telnet 远程设备管理配置实验文档》

[论文阅读] 人工智能 + 软件工程 | TDD痛点破解：LLM自动生成测试骨架靠谱吗？静态分析+专家评审给出答案

【计算机网络 | 第10篇】信道复用技术

Pytest+requests进行接口自动化测试1.0（基础知识 + 测试用例 + request库）

使用 OpenLayers + 高德瓦片源实现旅游足迹地图

2025年体制内职业发展相关资格认证参考指南

window显示驱动开发—监视筛选器驱动程序（三）

计算机网络：数据链路层--数据链路层基本功能

第二课、熟悉Cocos Creator 编辑器界面

[Wit]CnOCR模型训练全流程简化记录（包括排除BUG）

JavaEE 进阶第四期：开启前端入门之旅(四)

TFS-2004《Input Selection for Nonlinear Regression Models》

esp下载器使用流程

3dtiles 加载问题

3D地球可视化教程 - 第1篇：基础地球渲染系统

单片机开发

LLMs之REFRAG：《REFRAG: Rethinking RAG based Decoding》的翻译与解读

MATLAB的数值计算（二）线性方程求解

Java基础(十一)：关键字final详解

Java全栈开发面试实录：从基础到微服务的实战经验分享

Matlab机器人工具箱使用1 简单的描述类函数

自动捕鱼器设计cad＋设计说明书＋三维图

深入理解 MyBatis-Plus 的 `ServiceImpl`

软件可靠性定量核心指标与关系深入解析

Android音频学习(十七)——音频数据流转

如何一次性将多个PPT幻灯片批量转换成PDF文档

Vue响应式底层原理：深入解析依赖追踪机制

抖音批量上传视频怎么弄？抖音矩阵账号管理的专业指南

数学知识--行向量与矩阵相乘，和矩阵与行向量相乘的区别

【硬件-笔试面试题-70】硬件/电子工程师，笔试面试题（知识点：过压保护电路）