Windows避坑部署CosyVoice多语言大语言模型
#工作记录
前言
在实际部署与应用过程中,项目的运行环境适配性对其稳定性与功能性的发挥至关重要。CosyVoice 项目虽具备强大的语音处理能力,但受限于开发与测试环境的侧重方向,其对运行环境存在特定要求。
该项目在 Linux 和 Docker 生态下的兼容性与优化程度较高,能够较为流畅地实现各项功能;然而,在 Windows 系统环境中,尤其是纯 Windows 本地部署场景下,由于系统架构差异、库版本兼容性等因素影响,会面临诸多适配难题。
以下将针对这些局限性,详细记录在纯Windows环境下的部署及报错排查与处理方法(详见文章末尾的引用资料内)。
一、新建conda虚拟环境
在搭建 CosyVoice 项目运行环境时,需新建 conda 虚拟环境,具体操作要求如下:
- Python 版本选择:选择 Python 3.10 或 Python 3.11 版本。此选择基于项目核心依赖库的适配性,能确保项目运行所需的库正常安装与运行。
- 环境命名:将新建的 conda 虚拟环境命名为 CosyVoice,便于后续对项目环境的管理与识别。
#技术笔记
-
为何采用 conda 虚拟环境进行部署?
CosyVoice 项目的依赖管理中,pynini是关键包之一。
在 Windows 系统环境下,截至目前,pynini仅能通过 conda 命令实现稳定且流畅的安装。
若使用virtualenv虚拟环境,无法保证pynini的正确安装。
而pynini安装失败,将直接导致项目另一重要依赖wetextprocessing无法完整安装,进而影响整个项目的正常运行,因此 conda 虚拟环境是更优选择。
-
为何限定 Python 版本为 3.10 或 3.11?
CosyVoice 项目需要安装DeepSpeed库以提升训练性能。
在 Windows 系统下,DeepSpeed目前仅支持通过.whl文件进行安装。
且现有DeepSpeed .whl文件资源,仅提供了适配 Python 3.9或 Python 3.10 和 Python 3.11 三个版本的安装包。
项目官方推荐版本为Python 3.10 ,低于3.10版本的Python可能对某些较新的特性支持不够好。
总之,若选择其他 Python 版本,可能将无法找到适配的DeepSpeed安装文件,导致无法正常安装DeepSpeed,影响项目训练环节的功能实现 。
二、安装pynini
这里为了照顾到后续wetextprocessing的顺利安装,需要指定以下版本:
conda install -y -c conda-forge pynini==2.1.5
激活CosyVoice虚拟环境后安装。
三、克隆项目
项目地址:
FunAudioLLM/CosyVoice:多语言大语音生成模型,提供推理、训练和部署全栈能力。
克隆完成后用PyCharm或VS Code打开项目。
三、修改和拆分requirements.txt文件分步进行安装
复制requirements.txt文件副本,拆分requirements.txt文件为以下两个单独的文件:
- conda_requirements_win.txt
- pip_requirements_win.txt
1、conda_requirements_win.txt
conda_requirements_win.txt使用conda命令自动处理依赖关系安装,文件内容修改为:
_r-mutex=1.0.0
aiofiles=22.1.0
annotated-types=0.6.0
antlr-python-runtime=4.9.3
anyio=4.7.0
appdirs=1.4.4
argon2-cffi=21.3.0
argon2-cffi-bindings=21.2.0
arrow-cpp=19.0.0
asttokens=3.0.0
async-lru=2.0.4
async-timeout=5.0.1
audioread=3.0.1
aws-c-auth=0.6.19
aws-c-cal=0.5.20
aws-c-common=0.8.5
aws-c-compression=0.2.16
aws-c-event-stream=0.2.15
aws-c-http=0.6.25
aws-c-io=0.13.10
aws-c-mqtt=0.7.13
aws-c-s3=0.1.51
aws-c-sdkutils=0.1.6
aws-checksums=0.1.13
aws-crt-cpp=0.18.16
aws-sdk-cpp=1.11.212
babel=2.16.0
beautifulsoup4=4.12.3
blas=1.0
bleach=6.2.0
boost-cpp=1.82.0
bottleneck=1.4.2
brotli-python=1.0.9
bzip2=1.0.8
c-ares=1.19.1
ca-certificates=2025.4.26
cairo=1.16.0
certifi=2025.4.26
cffi=1.17.1
click=8.1.8
colorama=0.4.6
comm=0.2.1
cryptography=44.0.1
cudatoolkit=11.8.0
cython=3.0.11
debugpy=1.8.11
decorator=5.1.1
defusedxml=0.7.1
deprecated=1.2.13
diffusers-torch=0.18.2
dill=0.3.6
dlfcn-win32=1.4.1
dnspython=2.4.2
email-validator=2.2.0
email_validator=2.2.0
exceptiongroup=1.2.0
executing=0.8.3
expat=2.7.0
ffmpeg=4.2.2
font-ttf-dejavu-sans-mono=2.37
font-ttf-inconsolata=3.000
font-ttf-source-code-pro=2.038
font-ttf-ubuntu=0.83
fontconfig=2.14.1
fonts-conda-ecosystem=1
fonts-conda-forge=1
freeglut=3.4.0
freetype=2.13.3
fribidi=1.0.10
getopt-win32=0.1
gflags=2.2.2
glib=2.78.4
glib-tools=2.78.4
glog=0.5.0
graphite2=1.3.13
graphviz=7.1.0
gst-plugins-base=1.22.3
gstreamer=1.22.3
gts=0.7.6
h11=0.14.0
harfbuzz=6.0.0
httpcore=1.0.2
httptools=0.6.4
httpx=0.27.0
huggingface_accelerate=1.4.0
hydra-core=1.3.2
icc_rt=2022.1.0
icu=70.1
importlib-metadata=8.5.0
intel-openmp=2023.1.0
ipykernel=6.29.5
jedi=0.19.2
jinja2=3.1.6
joblib=1.4.2
jpeg=9e
json5=0.9.25
jsonschema=4.23.0
jupyter-lsp=2.2.5
jupyter_client=8.6.3
jupyter_core=5.7.2
jupyter_events=0.12.0
jupyter_server=2.15.0
jupyter_server_terminals=0.5.3
jupyterlab=4.3.4
jupyterlab_pygments=0.3.0
jupyterlab_server=2.27.3
kiwisolver=1.4.8
krb5=1.20.1
lame=3.100
lazy_loader=0.4
lcms2=2.16
lerc=4.0.0
libabseil=20250127.0
libboost=1.82.0
libbrotlicommon=1.0.9
libbrotlidec=1.0.9
libbrotlienc=1.0.9
libclang=15.0.7
libclang13=15.0.7
libcurl=8.12.1
libdeflate=1.22
libevent=2.1.12
libexpat=2.7.0
libffi=3.4.4
libflac=1.4.3
libgd=2.3.3
libglib=2.78.4
libgrpc=1.71.0
libiconv=1.18
libogg=1.3.5
libopus=1.5.2
libpng=1.6.39
libprotobuf=5.29.3
libre2-11=2024.07.02
libsodium=1.0.18
libsqlite=3.49.1
libssh2=1.11.1
libthrift=0.15.0
libtiff=4.7.0
libtorch=2.5.1
libuv=1.48.0
libvorbis=1.3.7
libwebp=1.5.0
libwebp-base=1.5.0
libxml2=2.13.8
libxslt=1.1.41
libzlib=1.2.13
llvmlite=0.44.0
lz4-c=1.9.4
m2w64-bwidget=1.9.10
m2w64-bzip2=1.0.6
m2w64-expat=2.1.1
m2w64-fftw=3.3.4
m2w64-flac=1.3.1
m2w64-gcc-libgfortran=5.3.0
m2w64-gcc-libs=5.3.0
m2w64-gcc-libs-core=5.3.0
m2w64-gettext=0.19.7
m2w64-gmp=6.1.0
m2w64-gsl=2.1
m2w64-libiconv=1.14
m2w64-libjpeg-turbo=1.4.2
m2w64-libogg=1.3.2
m2w64-libpng=1.6.21
m2w64-libsndfile=1.0.26
m2w64-libsodium=1.0.10
m2w64-libtiff=4.0.6
m2w64-libvorbis=1.3.5
m2w64-libwinpthread-git=5.0.0.4634.697f757
m2w64-libxml2=2.9.3
m2w64-mpfr=3.1.4
m2w64-openblas=0.2.19
m2w64-pcre=8.38
m2w64-speex=1.2rc2
m2w64-speexdsp=1.2rc3
m2w64-tcl=8.6.5
m2w64-tk=8.6.5
m2w64-tktable=2.10
m2w64-wineditline=2.101
m2w64-xz=5.2.2
m2w64-zeromq=4.1.4
m2w64-zlib=1.2.8
markdown-it-py=2.2.0
matplotlib-inline=0.1.6
mdurl=0.1.0
mistune=3.1.2
mkl=2023.1.0
mkl-service=2.4.0
mkl_fft=1.3.11
mkl_random=1.2.8
mpg123=1.32.9
mpmath=1.3.0
msgpack-python=1.0.3
msys2-conda-epoch=20160418
multiprocess=0.70.14
nbclient=0.10.2
nbconvert-core=7.16.6
nbformat=5.10.4
nest-asyncio=1.6.0
notebook=7.3.2
notebook-shim=0.2.4
numexpr=2.10.1
omegaconf=2.3.0
openfst=1.8.2
openjpeg=2.5.2
openssl=3.5.0
opentelemetry-api=1.30.0
orc=2.1.1
overrides=7.4.0
pandocfilters=1.5.0
pango=1.50.12
pcre2=10.42
pixman=0.46.0
platformdirs=4.3.7
ply=3.11
pooch=1.4.0
prometheus_client=0.21.1
prompt_toolkit=3.0.43
propcache=0.3.1
pure_eval=0.2.2
pycparser=2.21
pydub=0.25.1
pynini=2.1.5
pyqt=5.15.10
pyqt5-sip=12.13.0
pysocks=1.7.1
python=3.10.16
python-dateutil=2.9.0post0
python-dotenv=1.1.0
python-fastjsonschema=2.20.0
python-json-logger=3.2.1
python-tzdata=2025.2
python-xxhash=3.5.0
python_abi=3.10
pywin32=308
pywinpty=2.0.15
pyworld=0.3.5
pyzmq=26.2.0
qt-main=5.15.8
qtwebkit=5.212
r-base=3.6.1
re2=2024.07.02
referencing=0.30.2
regex=2024.11.6
rich-toolkit=0.11.3
rpds-py=0.22.3
safehttpx=0.1.6
safetensors=0.5.3
scikit-learn=1.6.1
send2trash=1.8.2
sip=6.7.12
sleef=3.5.1
snappy=1.2.1
soxr=0.1.3
soxr-python=0.5.0.post1
sqlite=3.45.3
stack_data=0.2.0
standard-aifc=3.13.0
standard-sunau=3.13.0
terminado=0.17.1
tinycss2=1.4.0
tk=8.6.14
tokenizers=0.21.0
tomli=2.0.1
tornado=6.4.2
typer=0.15.3
typer-slim=0.15.3
typing_extensions=4.12.2
tzdata=2025b
ucrt=10.0.22621.0
unicodedata2=15.1.0
utf8proc=2.6.1
uvicorn-standard=0.32.1
vc=14.42
vc14_runtime=14.42.34438
vs2015_runtime=14.42.34438
watchfiles=0.24.0
wcwidth=0.2.5
webencodings=0.5.1
websocket-client=1.8.0
wheel=0.45.1
win_inet_pton=1.1.0
winpty=0.4.3
wrapt=1.17.0
xxhash=0.8.0
xz=5.6.4
yaml=0.2.5
zeromq=4.3.5
zipp=3.21.0
zlib=1.2.13
zstd=1.5.6
2、pip_requirements_win.txt
pip_requirements_win.txt使用pip命令安装,文件内容修改(拆分)为:
absl-py==2.2.2
addict==2.4.0
aiohappyeyeballs==2.6.1
aiohttp==3.11.18
aiosignal==1.3.2
aliyun-python-sdk-core==2.16.0
aliyun-python-sdk-kms==2.16.5
altair==5.5.0
attrs==25.3.0
backcall==0.2.0
blinker==1.9.0
brotli==3.0.1
brotlipy==0.7.1
cachetools==5.5.2
certifi==2025.4.26
cffi==1.17.1
charset-normalizer==3.4.2
cnstd==1.2.5.2
coloredlogs==15.0.1
conformer==0.3.2
contourpy==1.3.2
crcmod==1.7
cycler==0.12.1
datasets==2.18.0
deepspeed==0.16.5
diffusers==0.27.2
einops==0.8.1
fastapi==0.115.12
fastapi-cli==0.0.4
filelock==3.18.0
flask==3.1.1
flask-cors==5.0.1
flatbuffers==25.2.10
fonttools==4.57.0
frozenlist==1.6.0
fsspec==2024.2.0
gast==0.6.0
gdown==5.1.0
glob2==0.7
gmpy2==2.1.2
google-auth==2.40.1
google-auth-oauthlib==1.0.0
gradio==5.29.0
gradio-client==1.10.0
groovy==0.1.2
grpcio==1.57.0
grpcio-tools==1.57.0
hjson==3.1.0
huggingface-hub==0.31.2
humanfriendly==10.0
hyperpyyaml==1.2.2
idna==3.10
importlib-resources==6.5.2
inflect==7.3.1
intel-cmplr-lib-rt==2025.1.1
intel-cmplr-lic-rt==2025.1.1
itsdangerous==2.2.0
jmespath==0.10.0
librosa==0.10.2
lightning==2.2.4
lightning-utilities==0.14.3
markdown==3.8
markupsafe==2.1.5
matplotlib==3.10.3
modelscope==1.15.0
more-itertools==10.7.0
multidict==6.4.3
narwhals==1.39.0
networkx==3.1
ninja==1.11.1.4
numba==0.61.2
numpy==1.24.0
nvidia-cuda-runtime-cu12==12.9.37
nvidia-ml-py==12.575.51
oauthlib==3.2.2
onnx==1.17.0
onnxruntime==1.21.1
onnxruntime-gpu==1.21.1
openai-whisper==20240930
opencv-python==4.11.0.86
orjson==3.10.16
oss2==2.19.1
packaging==23.0
pandas==1.5.3
parso==0.8.3
peft==0.15.2
pexpect==4.8.0
pickleshare==0.7.5
pillow==9.4.0
pip==25.1.1
pluggy==1.0.0
prompt-toolkit==3.0.36
protobuf==4.25.0
psutil==5.9.0
ptyprocess==0.7.0
py-cpuinfo==9.0.0
pyarrow==18.1.0
pyarrow-hotfix==0.7
pyasn1==0.6.1
pyasn1-modules==0.4.2
pybind11==2.13.6
pyclipper==1.3.0.post6
pycosat==0.6.6
pycryptodome==3.22.0
pydantic==2.7.0
pydantic-core==2.18.1
pygments==2.15.1
pynvml==12.0.0
pyparsing==3.2.3
pyreadline3==3.5.4
python-multipart==0.0.18
pytorch-lightning==2.3.3
pytz==2025.2
pyyaml==6.0
rapidocr-onnxruntime==1.3.25
requests-oauthlib==2.0.0
rich==13.7.1
rsa==4.9.1
ruamel-yaml==0.18.10
ruamel-yaml-clib==0.2.12
ruff==0.11.6
scipy==1.15.2
seaborn==0.13.2
semantic-version==2.10.0
setuptools==80.4.0
shapely==2.1.0
shellingham==1.5.4
simplejson==3.20.1
six==1.17.0
sniffio==1.3.1
sortedcontainers==2.4.0
soundfile==0.12.1
soupsieve==2.4
starlette==0.46.2
sympy==1.13.1
tbb==2022.1.0
tcmlib==1.3.0
tensorboard==2.14.0
tensorboard-data-server==0.7.2
tensorrt-cu12-libs==10.10.0.31
threadpoolctl==3.6.0
tiktoken==0.9.0
tn==0.0.4
tomlkit==0.12.0
toolz==0.12.0
torch==2.6.0+cu124
torchaudio==2.6.0+cu124
torchmetrics==1.7.1
torchvision==0.21.0+cu124
tqdm==4.65.0
traitlets==5.7.1
transformers==4.51.3
ttsfrd==0.1.0
ttsfrd-dependency==0.1
typeguard==4.4.2
types-dataclasses==0.6.6
typing-extensions==4.13.2
ujson==5.10.0
ultralytics==8.3.127
ultralytics-thop==2.0.14
umf==0.10.0
unidecode==1.4.0
urllib3==2.4.0
uvicorn==0.30.0
websockets==11.0.3
werkzeug==3.1.3
wetextprocessing==1.0.3
wget==3.2
yapf==0.43.0
yarl==1.20.0
zstandard==0.19.0
四、安装*requirements*
(一)conda命令安装conda_requirements_win.txt
conda install --file conda_requirements_win.txt
(二)pip命令安装pip_requirements_win.txt
pip install --use-pep517 -r pip_requirements_win.txt
或
pip install --requirement pip_requirements_win.txt
或
pip install -r pip_requirements_win.txt
五、安装DeepSpeed
DeepSpeed的.whl文件下载地址之一:
车轮 - DeepSpeed
下载 python3.11的deepspeed-0.16.5-py3-none-any.whl文件,移动到项目根目录后,从本地安装。
pip install deepspeed-0.16.5-py3-none-any.whl
到这里,依赖基本顺利安装完毕,然后我们需要验证一下torch的CUDA GPU支持:
import torch # 导入 PyTorch 库print("PyTorch 版本:", torch.__version__) # 打印 PyTorch 的版本号# 检查 CUDA 是否可用,并设置设备("cuda:0" 或 "cpu")
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print("设备:", device) # 打印当前使用的设备
print("CUDA 可用:", torch.cuda.is_available()) # 打印 CUDA 是否可用
print("cuDNN 已启用:", torch.backends.cudnn.enabled) # 打印 cuDNN 是否已启用# 打印 PyTorch 支持的 CUDA 和 cuDNN 版本
print("支持的 CUDA 版本:", torch.version.cuda)
print("cuDNN 版本:", torch.backends.cudnn.version())# 创建两个随机张量(默认在 CPU 上)
x = torch.rand(5, 3)
y = torch.rand(5, 3)# 将张量移动到指定设备(CPU 或 GPU)
x = x.to(device)
y = y.to(device)# 对张量进行逐元素相加
z = x + y# 打印结果
print("张量 z 的值:")
print(z) # 输出张量 z 的内容
输出应该是类似这样的:
六、 下载模型
新建一个简单的.py文件,比如model_down.py,复制并粘贴项目README.MD文档中给出的如下代码:
# SDK模型下载
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')
snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')
snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')
snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')
snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')
- 或
# git模型下载,请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice2-0.5B.git pretrained_models/CosyVoice2-0.5B
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd
保存并在项目目录下、项目的虚拟环境终端中运行:
python model_down.py
这将下载模型到本地。
SDK模型下载的方式,模型文件会被先下载到C盘,然后再被链接指向到项目目录下 。这可能是由modelscope的特性决定的。
七、安装ttsfrd(文本规范化工具)
进入模型目录解压特定包并安装ttsfrd
cd pretrained_models/CosyVoice-ttsfrd/
unzip resource.zip -d .
pip install ttsfrd_dependency-0.1-py3-none-any.whl #依赖包
pip install ttsfrd
或者直接:
pip install ttsfrd
小结
- 这一步的作用:提升 CosyVoice 的文本规范化性能(更快、更准)。
- 是否必须? ❌ 不是,可以跳过,不影响基本功能。
- 如何安装? 按照步骤解压并运行
pip install
即可(确保系统匹配)。
如果我们只是想快速测试 CosyVoice,可以跳过这一步;如果追求更高性能,建议安装 ttsfrd
。
八、运行程序
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice-300M
或2.05B模型:
python webui.py --port 50000 --model_dir pretrained_models/CosyVoice2-0.5B
浏览器访问输出中给出的地址:
如果没有另外指定端口号,一般是:
http://localhost:50000/
然后上传一段英文演讲语言进行跨语种复刻测试:
测试成功输出,并且没有新的报错输出,说明程序正常运行。
九、报错的排查和处理
由于该项目对 Linux 和 Docker 环境的适配性更佳,经对比 Linux 系统下的环境依赖配置,以及 Docker 容器内的依赖清单,并结合调试实践发现:项目在较低版本的运行环境中表现更为稳定。在 Windows 系统环境下,部分旧版库的调用逻辑与当前主流调用方式存在显著差异,这使得报错问题在当前项目版本中几乎无法完全规避。若坚持在纯 Windows 系统下部署,且不采用 WSL(Windows Subsystem for Linux)或 Docker 容器等替代方案,需提前做好应对报错排查与处理的准备工作。
以下是整理记录的报错处理方案,以供参考:
windows部署cosyvoice环境依赖文件分享-CSDN博客
可用于快捷安装DeepSpeed的whl地址-CSDN博客
修复CosyVoice中的ImportError: cannot import name ‘cached_download‘ from ‘huggingface_hub‘报错的记录-CSDN博客
修复CosyVoice中的ModuleNotFoundError: No module named ‘diffusers.models.lora‘记录_no module named 'diffusers-CSDN博客
LINK : fatal error LNK1181: 无法打开输入文件“aio.lib” test.c LINK : fatal error LNK1181: 无法打开输入文件“cufile.lib-CSDN博客
消除AttributeError: module ‘ttsfrd‘ has no attribute ‘TtsFrontendEngine‘报错输出的记录_attributeerror: module 'ttsfrd' has no attribute '-CSDN博客
修复CosyVoice中的NameError: name ‘ZhNormalizer‘ is not defined报错的记录-CSDN博客
修复CosyVoice中的NameError: name ‘ZhNormalizer‘ is not defined和ImportError: cannot import name ‘EnN报错的记录-CSDN博客