当前位置: 首页 > news >正文

ZipVoice小米语音合成-MacOS可运行

ZipVoice是小米AI实验室新一代Kaldi团队发布的基于Flow Matching架构的语音合成(TTS)模型,包括ZipVoice和ZipVoice-Dialog两个版本。以下是其详细介绍及部署使用方法:

模型介绍

  • ZipVoice:主要针对单说话人零样本合成,它基于Zipformer骨干网络,该网络基于U-Net的多尺度高效结构,巧妙结合卷积与注意力机制,并能多次复用注意力权重,使ZipVoice在参数量上相比同类模型直接缩减了约63%。同时,通过流蒸馏(Flow Distillation)技术,在不牺牲语音质量的前提下,大幅减少了推理所需的步数,在CPU上也能达到接近实时的合成速度。
  • ZipVoice-Dialog:专为对话场景量身打造,它引入了说话人轮次嵌入向量(Speaker-Turn Embedding),能精准识别并还原不同说话人的音色,避免传统模型中音色混淆的问题。再配合课程学习策略,先从单人语音打好基础,再学习对话中的角色切换和自然语流,在多角色对话的稳定性和自然度上表现出色。

部署使用

  • 部署:ZipVoice系列的模型文件、训练代码和推理代码已全部开源,可在GitHub上获取,网址为https://github.com/k2-fsa/ZipVoice。开发者可以根据自己的需求,将模型部署在不同的设备和平台上,由于其轻量化的特点,即使在算力有限的设备上也能有较好的表现。
  • 使用:作为一种零样本TTS模型,除了要合成的文本外,ZipVoice还需要一个音频提示及其转录来模拟声音。合成音频的句子持续时间是根据提示转录和要合成的文本之间的标记长度比估计的。文本编码器的输入由分词后的文本标记拼接构成,通过平均上采样处理生成的文本特征构建文本条件,音频条件则通过将音频提示填充至相应长度生成,初始噪声语音采样自标准高斯分布,最终合成语音通过常微分方程求解获得。
  • 具体步骤
  • git clone https://github.com/k2-fsa/ZipVoice.git
  • python3 -m venv zipvoice
  • source zipvoice/bin/activate
  • pip install -r requirements.txt
  • python3 -m zipvoice.bin.infer_zipvoice
    –model-name zipvoice
    –prompt-wav prompt.wav
    –prompt-text “I am the transcription of the prompt wav.”
    –text “I am the text to be synthesized.”
    –res-wav-path result.wav

文章转载自:

http://rGkprbzC.fhcwm.cn
http://J2TQltIu.fhcwm.cn
http://QFNRB5Br.fhcwm.cn
http://xaPSqQUO.fhcwm.cn
http://SvTq1QLk.fhcwm.cn
http://zbys2Lmg.fhcwm.cn
http://2qHHGeMN.fhcwm.cn
http://68RuLVgn.fhcwm.cn
http://DOTXMIVg.fhcwm.cn
http://pLjqDwhm.fhcwm.cn
http://NUhR9l8m.fhcwm.cn
http://52Cvw9ZE.fhcwm.cn
http://it3N0NaO.fhcwm.cn
http://OskyxSAo.fhcwm.cn
http://c2Qv9KG2.fhcwm.cn
http://u8wXYjCD.fhcwm.cn
http://zEx3iCAf.fhcwm.cn
http://sXsVRwr8.fhcwm.cn
http://qMKLUoOS.fhcwm.cn
http://sf0wyCHl.fhcwm.cn
http://KoZMVonn.fhcwm.cn
http://RjKPJDrg.fhcwm.cn
http://BMFYuIAl.fhcwm.cn
http://v9XcupFv.fhcwm.cn
http://NNKtbQrE.fhcwm.cn
http://BQysVbzf.fhcwm.cn
http://E2eBEsxw.fhcwm.cn
http://Y7iFldEj.fhcwm.cn
http://TyNuzu3l.fhcwm.cn
http://sqSR9B9P.fhcwm.cn
http://www.dtcms.com/a/386531.html

相关文章:

  • 技术驱动学术论文写作创新:以智能工具高效生成论文提纲为例
  • (笔记)进程间通讯
  • 电力行业数字化——解读麦肯锡企业数据架构数据治理架构设计规划【附全文阅读】
  • 如何搭建redis集群(docker方式非哨兵)
  • AWS Free Tier 2.0深度技术解析与实战指南
  • 深度学习-PyTorch基本使用
  • 飞书智能查询机器人搭建说明文档
  • 速通ACM省铜第六天 赋源码(MEX Count)
  • Python自动化测试·Selenium简单介绍
  • 腾讯云轻量服务器CentOSdocker报错信息
  • 玩转Docker小游戏项目系列: Docker部署红心纸牌网页小游戏
  • Spring Cloud 注册中心:Eureka 与 Nacos 深度对比
  • 机器视觉检测中光源的作用以及分类
  • php7.4使用systemd服务器管理文件无法启动的解决办法
  • 机器视觉检测中工业相机的作用以及分类
  • MySQL 备份与还原
  • 5 分钟 SAE 极速部署 Dify,高效开发 AI 智能体应用
  • [硬件电路-233]:增强型MOS中的增强,是指通过增加正电压使得沟道从无到有的增强。耗尽型MOS中的耗尽,通过增加负电压使得沟通从最大逐渐减弱直到耗尽。
  • 整体设计 之 绪 思维导图引擎 之 引 认知系统 之 引 认知系统 之 序 认知元架构 之 概要设计收官 之1 汇总 形式化表示
  • TDengine 时序函数 DIFF 用户手册
  • 60.[前端开发-Vue3]Day02-模板语法-列表渲染-OptionsAPI-侦听器
  • UML_类图
  • 八串口服务器-工业物联网解决方案
  • 烟花爆竹储存防火防爆知识,《烟花爆竹储存作业证》考试重点
  • Linux网络:守护进程
  • 用C语言求数组Sn的前5项
  • 物联网传感器检测实验
  • GTA式送货!新游《Deliver At All Costs》上线steam
  • 亚马逊新品优化全攻略:从冷启动到高转化的系统化路径
  • 基于属性描述转移的高压断路器零样本智能诊断模型