当前位置: 首页 > news >正文

MOSS-TTSD V2版 - 文本到语音对话生成 支持零样本多人语音克隆 一键整合包下载

MOSS-TTSD 是一种语音对话生成模型,能够支持中英文的富有表现力的对话语音合成,支持零样本多说话人语音克隆、语音事件控制和长文本语音生成。
MOSS-TTSD(文本到语音对话)支持中英文的双语语音对话合成,能够将两个说话者之间的对话脚本转化为自然、富有表现力的会话式语音。MOSS-TTSD 支持语音克隆和长单次会话语音生成,非常适合 AI 播客制作。

通俗的讲,只需要上传两段参考音频,输入两个人的对话文字内容,即可一键生成两人的对话音频内容,生成对话语音自然、且富有表现力,几乎接近真人对话水平。


今天分享的 MOSS-TTSD V2版,修复了上个版本flash_attn和硬件不兼容报错问题,V2版支持30和40系显卡(30系以下老卡不支持),支持flash_attn加速。
50系显卡请使用 V1版,按照要求覆盖补丁即可。


应用领域
AI 播客制作: 自动将文本内容转化为多人对话的播客音频,支持零样本人声克隆和长语音生成,降低制作成本。
影视配音与动画: 为影视作品、动画生成自然对话语音,支持多语言切换,提升配音效率。
长篇访谈与会议记录: 将访谈或会议文本转化为语音,保留对话的韵律和情感,便于存档和分享。
数字人对话带货: 为虚拟主播或数字人提供自然流畅的对话语音,增强互动体验。
语音助手与客服: 提升语音助手的对话自然度,支持多轮对话和情感表达,改善用户体验。


使用教程:(建议N卡,显存8G起。支持30-40系显卡,基于CUDA12.4)

输入两个人对话文本内容,用标签[S1]和[S2]区分,上传两段说话人的参考音频,生成即可。

下载地址:点此进入

http://www.dtcms.com/a/274774.html

相关文章:

  • 一文速览DeepSeek-R1的本地部署——可联网、可实现本地知识库问答(附教程)
  • OBB旋转框检测配置与训练全流程(基于 DOTA8 数据集)
  • 第3章 操作臂运动学(笔记总结)
  • Hangfire 调用报错解决方案总结
  • 经典的垃圾收集器!!!
  • day02-数组part02
  • day67—DFS—被围绕的区域(LeetCode-130)
  • 飞算JavaAI 实战笔记
  • Qt中QGraphicsView类应用解析:构建高效2D图形界面的核心技术
  • 迭代器(c++)、智能指针
  • 【C/C++】动态内存分配:从 C++98 裸指针到现代策略
  • PyTorch武侠演义 第一卷:初入江湖 第1章:武林新秀遇Tensor - 张量基础
  • 技术突破与落地应用:端到端 2.0 时代辅助驾驶TOP10 论文深度拆解系列【第九篇(排名不分先后)】
  • 飞书CEO谢欣:挑战巨头,打造AI新时代的Office
  • Rail开发日志_6
  • Python类型注解中的`Optional`:深入理解难点解析(进阶版)
  • EndNote快速入手指南
  • CDN 加速与安全防护:双剑合璧的技术协同
  • manifest.json只有源码视图没其他配置
  • Tomcat问题:启动脚本startup.bat中文乱码问题解决
  • 实现临界区互斥的基本方法
  • MyBatis 进阶:连接池、动态 SQL 与多表关联查询
  • 不可告人的秘密- 1.0版 (字符串加密解密工具)
  • c++26新功能—copyable_function
  • windows内核研究(系统调用 二)
  • vue使用printJS实现批量打印及单个打印 避免空白页
  • Kubernetes 高级调度
  • SSM与SpringBoot面试题
  • Gin 中常见参数解析方法
  • 解锁48V USB-C供电潜力,慧能泰重磅推出PD3.2 DRP芯片HUSB253