当前位置: 首页 > news >正文

在线教程 | VibeVoice-1.5B独创双Tokenizer架构实现一次性生成90分钟4人对话语音,重新定义TTS技术边界

微软最新开源的 VibeVoice-1.5B 模型,在 TTS 技术领域掀起了轩然大波,这款拥有 15 亿参数的模型,能够一次性生成长达 90 分钟的高自然度语音,并支持模拟最多 4 位不同说话者的对话,其官方盲测 MOS(平均意见分数)高达 4.5,接近真人语音质量。

VibeVoice-1.5B 的核心创新在于其独特的双 Tokenizer 架构和扩散解码技术。它基于 Qwen2.5 语言模型,通过声学 Tokenizer(采用 σ-VAE 结构,实现 3,200 倍音频压缩)和语义 Tokenizer(专注于保留文本情绪与停顿)分工协作,以仅 7.5 Hz 的超低帧率处理音频序列。在解码端,一个 1.23 亿参数的扩散解码器配合 DPM-Solver 算法,负责重构高保真音频细节。

VibeVoice-1.5B 主要面向科研与开发者社区,为播客制作、对话式 AI 以及语音内容生成等领域提供了新工具。不过需要注意的是,它目前仅支持中英文,且无法处理语音重叠或生成背景音效。微软明确强调了其研究用途,并内置了可听闻的免责声明和不可感知的水印技术,以防止技术滥用。

目前,「微软 VibeVoice-1.5B 重新定义 TTS 技术边界」已上线至 HyperAI超神经官网的「教程」板块,点击下方链接即可一键部署。

教程链接:

https://go.hyper.ai/6Ii8l

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_NR0n

Demo 运行

1.进入 hyper.ai 首页后,选择「教程」页面,并选择「微软 VibeVoice-1.5B 重新定义 TTS 技术边界」,点击「在线运行此教程」。

图片

图片

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

图片

3.选择「NVIDIA GeForce RTX 4090」,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」。在选择镜像「PyTorch」后,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_NR0n

图片

图片

4.等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

图片

效果演示

进入模型页面后,在「Number of Speakers」中选择说话人数,「Speaker 1-4」设置说话人,「Conversation Script」中输入对话文本,最后点击「Generate Podcast」生成。

笔者以四人对话为例,生成了一段语音:

*prompt:

Speaker 1: How about trying that new café this weekend? I heard their pour-over coffee is good.

Speaker 2:Sure! But I have to go to yoga on Saturday afternoon, so I’m free on Sunday morning.

Speaker 3: Sunday morning works for me too. I just want to talk to you guys about the team building next week.

Speaker 4:Then I have no problem! Let’s meet at the café entrance at 10 a.m. on Sunday?

Speaker 1:Great, I’ll reserve a window seat in advance.

图片

这就是本期推荐的教程,欢迎大家亲自上手体验 ⬇️

教程链接:https://go.hyper.ai/6Ii8l


文章转载自:

http://dwaq9jFS.cmrfL.cn
http://nfFhwkcE.cmrfL.cn
http://I6bLt4e1.cmrfL.cn
http://Gy3mmpv3.cmrfL.cn
http://HzDqIZ0t.cmrfL.cn
http://gRrTjjrd.cmrfL.cn
http://8LccD64q.cmrfL.cn
http://jtT6j1Ni.cmrfL.cn
http://lxoaaU1j.cmrfL.cn
http://QbxgUqJG.cmrfL.cn
http://qOwUe1AP.cmrfL.cn
http://OdVGp6B5.cmrfL.cn
http://2ztufAhY.cmrfL.cn
http://UeP68Bzt.cmrfL.cn
http://khqsEzTO.cmrfL.cn
http://8RLgHME0.cmrfL.cn
http://TKAi30Ge.cmrfL.cn
http://Bl8ITrXY.cmrfL.cn
http://7uxHaRLH.cmrfL.cn
http://ivmsl0ml.cmrfL.cn
http://HoDk5UVu.cmrfL.cn
http://UcfgCLvH.cmrfL.cn
http://d08h94VO.cmrfL.cn
http://Zqrogqc6.cmrfL.cn
http://1xJfToZa.cmrfL.cn
http://5xYeaUmw.cmrfL.cn
http://SA1FzuMu.cmrfL.cn
http://rUyMIE1g.cmrfL.cn
http://BM23KITL.cmrfL.cn
http://8yVHxCuO.cmrfL.cn
http://www.dtcms.com/a/373096.html

相关文章:

  • 《练手:ipv4地址计算和Telnet 远程设备管理配置实验文档》
  • [论文阅读] 人工智能 + 软件工程 | TDD痛点破解:LLM自动生成测试骨架靠谱吗?静态分析+专家评审给出答案
  • 【计算机网络 | 第10篇】信道复用技术
  • Pytest+requests进行接口自动化测试1.0(基础知识 + 测试用例 + request库)
  • 使用 OpenLayers + 高德瓦片源实现旅游足迹地图
  • 2025年体制内职业发展相关资格认证参考指南
  • window显示驱动开发—监视筛选器驱动程序(三)
  • 计算机网络:数据链路层--数据链路层基本功能
  • 第二课、熟悉Cocos Creator 编辑器界面
  • [Wit]CnOCR模型训练全流程简化记录(包括排除BUG)
  • JavaEE 进阶第四期:开启前端入门之旅(四)
  • TFS-2004《Input Selection for Nonlinear Regression Models》
  • esp下载器使用流程
  • 3dtiles 加载问题
  • 3D地球可视化教程 - 第1篇:基础地球渲染系统
  • 单片机开发
  • LLMs之REFRAG:《REFRAG: Rethinking RAG based Decoding》的翻译与解读
  • MATLAB的数值计算(二)线性方程求解
  • Java基础(十一):关键字final详解
  • Java全栈开发面试实录:从基础到微服务的实战经验分享
  • Matlab机器人工具箱使用1 简单的描述类函数
  • 自动捕鱼器设计cad+设计说明书+三维图
  • 深入理解 MyBatis-Plus 的 `ServiceImpl`
  • 软件可靠性定量核心指标与关系深入解析
  • Android音频学习(十七)——音频数据流转
  • 如何一次性将多个PPT幻灯片批量转换成PDF文档
  • Vue响应式底层原理:深入解析依赖追踪机制
  • 抖音批量上传视频怎么弄?抖音矩阵账号管理的专业指南
  • 数学知识--行向量与矩阵相乘,和矩阵与行向量相乘的区别
  • 【硬件-笔试面试题-70】硬件/电子工程师,笔试面试题(知识点:过压保护电路)