当前位置：首页 > news >正文

双人对话生成模型 MOSS 上线，支持零样本语音克隆

news 2025/11/14 11:12:00

在语音生成这一领域，文本到语音（TTS）模型已经能够合成出高度清晰、音色动人的单人朗读语音，极大地推动了内容创作与人机交互的进步。然而，当我们试图将这项技术应用于一些更具动态和表现力的多人对话场景——如播客对话、影视配音或长篇叙事时，传统的单说话人 TTS 模型便显得有些力不从心了。
针对于此，上海创智学院、复旦大学和模思智能的 OpenMOSS 团队携手推出了 MOSS-TTSD 模型。MOSS-TTSD 是专为口语对话生成而设计的开创性模型。它不仅能实现零样本下的双人音色克隆与区分，更能精准地模拟出真实对话中特有的语气、停顿和情感流动，将生硬的文本脚本转化为富有生命力的自然交谈。
MOSS-TTSD 基于 Qwen3-1.7B-base 模型进行继续训练，采用离散化的语音序列建模方法，在约 100 万小时单说话人语音数据和 40 万小时对话语音数据上进行训练，因此它能够一次性生成长达数十分钟的连贯语音，更是为 AI 播客、有声书和虚拟角色配音打开了全新的大门。

教程链接：https://go.openbayes.com/K8xHG

使用云平台：OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v

登录 http://OpenBayes.com，在「公共教程」页面，选择一键部署「MOSS：文本到口语对话生成」教程。

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本，不需要再进行手动选择。点击「继续执行」，等待分配资源。

待系统分配好资源，当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。

该教程可在「音频输入模式」处选择单人音频生成（Single）和双人对话音频生成（Role）。进入 Demo 界面后，首先选择界面语言，然后输入要合成的文本，输入模式选择「Single」则需上传包含一个角色的音频；选择「Role」则需上传两个角色的音频。

单人音频示例：

（由于平台限制，音频大家可以到「知乎-技术小白狮」同名文章内查看～）

双人对话音频示例：

（由于平台限制，音频大家可以到「知乎-技术小白狮」同名文章内查看～）

http://www.dtcms.com/a/606692.html

相关文章：

SMOTE详解

16.【NXP 号令者RT1052】开发——实战-FlexPWM 输出

Datawhale coze-ai-assistant task2

NESTJS - RSA加解密

自己服务器可以做网站如何做家教网站赚钱

开发外贸网站开发企业官网的建设

一、Rabbit MQ 初级

单位网站建设费用神马搜索推广

【MySQL】MySQL内置函数--日期函数字符串函数数学函数其他相关函数

数据结构力扣练习

2018年网站建设发言凯里网站开发

XML 和 JSON -----几种重要模式

【读论文】基于LLM增强的全双工对话

怎么做网站不被发现崇明网站开发

Java后端常用技术选型 |（二）工具类篇

FPGA教程系列-Vivado IP核BMG核

【1.11】基于FPGA的costas环开发5——环路滤波器模块开发

济南行知网站建设南京淄博网站建设工作室

网站木马代码网站建设新手

汕头市国外网站建设公司百度关键词优化查询

业务流低代码平台：从理念到实战

DebugView 学习笔记（8.9）：什么是调试输出？为什么它是现场排障的“读心术”

RSS 语法：全面解析与优化指南

php能做手机网站吗口碑营销成功的案例

【每日一面】BOM 是什么

稀土抑烟剂在透明膜上的应用：安全与环保的双重保障

郑州网站建设中心wordpress2016

最新企业网站制作短链接网站

建设部标准规范网站网页设计与制作教程考试试卷

基于Python+OpenCV实现双目立体视觉的图像匹配与测距