当前位置：首页 > news >正文

CosyVoice 2 部署加速推理模型（Ubuntu 24.04）

news 2025/11/9 10:41:48

前面的文章 https://blog.csdn.net/hjh2005/article/details/154354244 已经介绍了如何在 Windows 系统本地部署 CosyVoice 2，音频生成的速度比较慢，生成一段7秒左右的音频时间超过了7秒，这个性能用在实时语音交互的场景是不行的。

然后文章 https://blog.csdn.net/hjh2005/article/details/154479813 又介绍了在Windows 系统部署加速推理模型的方法，但是由于 Window 系统中 Docker 的 CUDA IPC 共享内存支持不好，导致推理的时候报错，所以只能转战 Linux 系统。

本文描述基于 Ubuntu 24.04.3 系统，同时参考 https://github.com/FunAudioLLM/CosyVoice/tree/main/runtime/triton_trtllm TensorRT-LLM 和 NVIDIA Triton 推理服务进行加速推理。

0、前置条件

1）科学上网：强烈建议想办法实现科学上网，不然连 NVIDIA 的很多安装包都无法安装；

2）显存：使用 TensorRT-LLM 部署 CosyVoice2-0.5B 模型，需要的显存显著增加，大概要7G左右，所以建议显存12G或以上；

3）磁盘：使用 Docker 安装，镜像加容器大概需要80G的空间，建议磁盘空间要大于80G；

4）确保已经安装了 NVIDIA 显卡驱动： 在终端中执行：nvidia-smi 命令，如果看到类似以下界面则说明已经安装了驱动，否则请先安装最新的驱动：

5）安装 Docker：参考 https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository 进行安装，建议先不要安装 Docker Desktop，我原来的 Ubuntu 22.04 安装了 Docker Desktop 后重启，无法进入系统了，所以重新安装了 24.04.3 系统，该系统自带 Nvidia 的驱动。

6）安装 NVIDIA Container Toolkit：如未安装此工具，Docker 容器将无法使用显卡资源，可能会报类似 Error response from daemon: could not select device driver "nvidia" with capabilities: [[gpu]] 的错误。安装方法参考：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#with-apt-ubuntu-debian

7）安装 MiniConda：参考：

查看全文

http://www.dtcms.com/a/586219.html