Windows 11 下载安装 CosyVoice2,一键启动
Windows 11 下载安装 CosyVoice2,一键启动
1. CosyVoice2 简介
CosyVoice2 是阿里巴巴推出的 多语言语音合成/文本转语音(TTS)模型。
CosyVoice2 开源免费、可本地部署、离线使用。
2. 硬件要求
- 显卡品牌:英伟达(NVIDIA)
- 显卡显存:≥ 4G
如何查看显卡信息?
右击任务栏,点击“任务管理器”,点击“性能”,点击最下方的“GPU …”,右边“专用GPU内存”下斜杠后面的数值,即为显存。
3. 准备工作
3.1. 下载 CosyVoice2 安装包
下载链接:https://download.csdn.net/download/qq_36462452/91946272
- 包含:
- 适用于 Windows 11 的 CosyVoice2 的安装包(CosyVoice.zip)
- 完善过的 CosyVoice 源码
- 一键安装依赖脚本
- 一键安装模型脚本
- 一键启动脚本
- 附赠
- Git、Miniforge 的安装包、安装说明
- 孙悟空、林黛玉、三国演义旁白 的音频和对应文本
全部文件:
.
├── pdf文件
│ ├── Windows 11 安装 Git.pdf
│ └── Windows 11 安装 Miniforge.pdf
├── 声音素材
│ ├── 三国演义旁白
│ │ ├── 三国演义旁白_音频.mp3
│ │ ├── 三国演义旁白_音频_对应文本.txt
│ │ └── 待合成文本.txt
│ ├── 孙悟空
│ │ ├── 孙悟空_音频.mp3
│ │ ├── 孙悟空_音频_对应文本.txt
│ │ └── 待合成文本.txt
│ └── 林黛玉
│ ├── 待合成文本.txt
│ ├── 林黛玉_音频.mp3
│ └── 林黛玉_音频_对应文本.txt
├── 说明文档:Windows 11 下载安装 CosyVoice2,一键启动.pdf
└── 软件├── CosyVoice.zip├── Git-2.51.0-64-bit.exe└── Miniforge3-Windows-x86_64.exe
3.2. 安装 Git
安装 Git 的目的是:用于获取模型文件。
如果你已经安装了 Git,可以跳过本节。
验证是否安装:
桌面右击,点击“在终端中打开”,将打开 PowerShell 终端,输入以下命令:
git --version
如果输出了版本号,则说明已安装。如果输出了错误信息,则说明未安装。
具体安装 Miniforge 的步骤,请找到资料中的文件:
- pdf文件/Windows 11 安装 Git.pdf
- 软件/Git-2.51.0-64-bit.exe
按照 .pdf 的说明进行安装 .exe 文件、完成配置。
3.3. 安装 Miniforge
安装 Miniforge 的目的是:将使用其中的 mamba 创建激活虚拟环境、安装项目的依赖。
如果你已经安装了 Miniforge,可以跳过本节。
验证是否安装:
桌面右击,点击“在终端中打开”,将打开 PowerShell 终端,输入以下命令:
mamba --version
如果输出了版本号,则说明已安装。如果输出了错误信息,则说明未安装。
具体安装 Miniforge 的步骤,请找到资料中的文件:
- pdf文件/Windows 11 安装 Miniforge.pdf
- 软件/Miniforge3-Windows-x86_64.exe
按照 .pdf 的说明进行安装 .exe 文件、完成配置。
4. 安装 CosyVoice2
-
下载资料资料文件中的
CosyVoice.zip
文件 -
解压项目代码: 右击
CosyVoice.zip
文件,选择“全部解压缩”,输入你想要安装的文件夹路径,点击“提取”,解压完成后进入解压后的文件夹CosyVoice
。 -
安装依赖包
在
CosyVoice
文件夹下,双击install_dependencies.bat
,等待执行完毕。 -
下载模型文件
在
CosyVoice
文件夹下,双击install_model.bat
,等待执行完毕。
5. 使用 CosyVoice2
在 CosyVoice
文件夹下,右击 start_CosyVoice2.bat
> 显示更多选项 > 发送到 > 桌面快捷方式。
在桌面上找到 start_CosyVoice2.bat
的快捷方式,双击运行。
-
执行完毕后会 自动在默认浏览器中打开 CosyVoice 的 WebUI 界面
-
或者完毕后,你可以手动打开浏览器,访问:
http://localhost:50000
即可打开 CosyVoice 的 WebUI 界面了。
在 CosyVoice 的 WebUI 界面中:
- 选择推理模式:选择“3s极速复刻”
- 上传 prompt 音频,即样本音频
- 比如资料中的:
- 声音素材\孙悟空\孙悟空_音频.mp3
- 声音素材\林黛玉\林黛玉_音频.mp3
- 声音素材\三国演义旁白\三国演义旁白_音频.mp3
- 比如资料中的:
- 填写 prompt 文本,即样本音频对应的文字内容
- 比如资料中的:
- 声音素材\孙悟空\孙悟空_音频_对应文本.txt
- 声音素材\林黛玉\林黛玉_音频_对应文本.txt
- 声音素材\三国演义旁白\三国演义旁白_音频_对应文本.txt
- 比如资料中的:
- 填写“合成文本”,即你想要生成的文字内容,即文本转语音的文本
- 比如资料中的:
- 声音素材\孙悟空\待合成文本.txt
- 声音素材\林黛玉\待合成文本.txt
- 声音素材\三国演义旁白\待合成文本.txt
- 比如资料中的:
- 点击“生成音频”
- 观察命令行窗口,确保没有报错,观察命令行中出现的进度条,等待进度条填满
- 等待,一段时间后“合成音频”框中就可以点击播放音频了,也可以点击右上角的下载按钮进行下载
- 首次运行时,可能出现进度条已填满,但播放按钮还是不能点击的情况,可重新点击“生成音频”