当前位置：首页 > news >正文

离线在docker环境使用vllm部署qwen3

news 2025/7/10 10:50:49

离线部署docker环境使用vllm部署qwen3

1、环境

麒麟V10 sp2
nvidia T4 显卡
显卡驱动
docker及nvidia-docker
vllm v0.8.5
qwen3-8b

2、下载模型

国内可从魔塔社区下载qwen3-8b的模型，下载完成后拷贝到内网服务器。

在这里插入图片描述

3、下载vllm镜像

在互联网docker拉取vllm/vllm-openai:v0.8.5.post1

# 拉取镜像命令
sudo docker pull vllm/vllm-openai:v0.8.5.post1
# 将镜像打包成离线tar文件，
docker save -o vllm-openai-085.tar vllm/vllm-openai:v0.8.5.post1

在内网docker上传离线镜像

# 将离线tar文件加载到docker镜像库
docker load -i vllm-openai-085.tar
# 查看镜像是否上传成功
docker images

5、docker启动镜像命令

docker run -d --runtime nvidia --gpus all --ipc=host -p 8000:8000 \
-v /home/aillm/models:/models -e "PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128" \
--name=qwen3-8b vllm/vllm-openai:v0.8.5.post1 \
--model /models/qwen3-8b \
--trust-remote-code \
--served-model-name Qwen3-8B \
--max_num_seqs 10 \
--tensor-parallel-size 4 \
--gpu_memory_utilization 0.95  \
--dtype float16 \
--enforce-eager \
--disable-custom-all-reduce \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--compilation-config 0 --enable-reasoning \
--reasoning-parser deepseek_r1 \
--rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":40960}' --max-model-len 98304

5.1 启动后日志如下所示

在这里插入图片描述

5.2 执行`nvidia-smi`命令后显示

在这里插入图片描述

6、遇到的问题

1、Error response from daemon: could not select device driver “nvidia” with capabilities: [[gpu]]

在这里插入图片描述

# 1、检查主机NVIDIA启动是否正常
nvidia-smi
# 2、检查NVIDIA容器工具包是否正常，项目地址：https://github.com/NVIDIA/nvidia-container-toolkit
# dpkg -l | grep nvidia-container-toolkit
nvidia-ctk
# 3、docker配置NVIDIA参数
sudo vim /etc/docker/daemon.json
#{"default-runtime": "nvidia","runtimes": {"nvidia": {"path": "nvidia-container-runtime","runtimeArgs": []}}
#
sudo systemctl restart docker