当前位置: 首页 > news >正文

MacOS 运行CosyVoice

CosyVoic主要特点:

1、支持中文、英文、上海话、天津话、四川话等方言。语音非常自然。

2、支持3秒语音零样本克隆,效果非常好。

3、克隆时间比较长(取决于GPU性能,使用H20以满足低延迟输出),L4 克隆默认文本需要10秒。

MacOS上运行比较简单,直接使用docker即可,虽然是docker是 AMD64版本非ARM64版本,但在容器中仍然可以使用,但性能会有所损失,相当于直接用的CPU,也没有使用MPS加速。

运行服务命令:

docker run --name cosyvoice -p 50000:50000 -d bobui/cosyvoice:h20_v2.20250801 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --model_dir iic/CosyVoice-300M"

以上bash命令会自动下载300M模型,并以grpc接口运行。

若想使用CosyVoice2-0.5B,只需要修改模型名称后运行即可。如:

docker run --name cosyvoice -p 50000:50000 -d bobui/cosyvoice:h20_v2.20250801 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --model_dir iic/CosyVoice2-0.5M"

若想使用fastapi,只需要将grpc修改为fastapi即可。

零样本测试命令:

cd /opt/CosyVoice/CosyVoice/runtime/python/grpc

python client.py --mode zero_shot

说明:默认使用asset/zero_shot_prompt.wav 作为参考声音

输出默认文件名称为:demo.wav

若要指定参考声音:--prompt_wav "你的参考声音.wav"

若要指定克隆文本:--tts_text "你需要克隆的文本内容"

最大的坑:

若改变默认的参考声音,则克隆出的声音与克隆文本完全不一致,好像模型自由发挥了吗?

这里需要同时指定--prompt_text 这个参数才可以。


文章转载自:

http://8eSHxTqB.xgtxL.cn
http://qNZTl48m.xgtxL.cn
http://sPbk1uW9.xgtxL.cn
http://3aFf5fnE.xgtxL.cn
http://9UsidGz6.xgtxL.cn
http://x49ZS3aN.xgtxL.cn
http://Y0idrBiw.xgtxL.cn
http://1vmcyvzG.xgtxL.cn
http://xfnE1TQw.xgtxL.cn
http://OATPUKpm.xgtxL.cn
http://Nws87EMh.xgtxL.cn
http://w51ATqjm.xgtxL.cn
http://bz6cMtDJ.xgtxL.cn
http://kkZJkvog.xgtxL.cn
http://JMLItaxD.xgtxL.cn
http://XqzKphSp.xgtxL.cn
http://8TU11fnJ.xgtxL.cn
http://hUhV8nvm.xgtxL.cn
http://lMinvr51.xgtxL.cn
http://zHjQkvBV.xgtxL.cn
http://3hQXh6Wz.xgtxL.cn
http://Z0eDILJ0.xgtxL.cn
http://qRZsJth2.xgtxL.cn
http://Vc7sy57s.xgtxL.cn
http://Xim7CnUp.xgtxL.cn
http://H9rSmj4v.xgtxL.cn
http://pBg4GHDs.xgtxL.cn
http://DvN1lvNy.xgtxL.cn
http://kzsTtcV9.xgtxL.cn
http://TMpv8K03.xgtxL.cn
http://www.dtcms.com/a/374674.html

相关文章:

  • Adam优化算法:深度学习的自适应动量估计方法
  • macos deepctr_torch虚拟环境配置
  • react的filber架构
  • Spring框架事件驱动架构核心注解之@EventListener
  • ARM的big.LITTLE架构
  • 整体设计 之 绪 思维导图引擎 :思维价值链分层评估的 思维引导和提示词导航 之 引 认知系统 之8 之 序 认知元架构 之3(豆包助手 之5)
  • 飞算JavaAI全链路实战:智能构建高可用电商系统核心架构
  • 01-AI-神经网络-视觉-PaddleDetection交通信号灯的目标检测的模型训练(平台提供的数据集)
  • SpringBoot改造MCP服务器(StreamableHTTP)
  • Gradle 与 Android 构建缓存机制全面总结
  • 数据结构题集-第四章-串-采用特定数据类型对串求逆
  • 新能源汽车中维修开关有什么作用?
  • GitHub 热榜项目 - 日榜(2025-09-09)
  • Go 装饰器模式学习文档
  • 20.44 QLoRA调参秘籍:零成本实现7B模型微调,参数黄金配比全解析(附3090实战方案)
  • Ubuntu 22.04 安装 Docker Compose 最新最简单完整指南​
  • 网络原理——传输层协议UDP
  • 从Java全栈开发到云原生实践:一次真实面试的深度剖析
  • 更换libc.so导致linux变砖,通过LD_PRELOAD挽救
  • PySpark数据输出
  • 面试题:MySQL要点总结(基础)
  • net::ERR_EMPTY_RESPONSE
  • Spring IoC:彻底搞懂控制反转
  • SLAM(同步定位与建图)
  • Cursor 编辑器:面向 AI 编程的新一代 IDE
  • 数字图像处理-设计生成一个半球
  • Web 前端可视化开发工具对比 低代码平台、可视化搭建工具、前端可视化编辑器与在线可视化开发环境的实战分析
  • 计算机网络---网络体系结构
  • java day18
  • RIP协议