离线在docker环境使用vllm部署qwen3
离线部署docker环境使用vllm部署qwen3
1、环境
- 麒麟V10 sp2
- nvidia T4 显卡
- 显卡驱动
- docker及nvidia-docker
- vllm v0.8.5
- qwen3-8b
2、下载模型
国内可从魔塔社区下载qwen3-8b的模型,下载完成后拷贝到内网服务器。
3、下载vllm镜像
- 在互联网docker拉取vllm/vllm-openai:v0.8.5.post1
# 拉取镜像命令
sudo docker pull vllm/vllm-openai:v0.8.5.post1
# 将镜像打包成离线tar文件,
docker save -o vllm-openai-085.tar vllm/vllm-openai:v0.8.5.post1
- 在内网docker上传离线镜像
# 将离线tar文件加载到docker镜像库
docker load -i vllm-openai-085.tar
# 查看镜像是否上传成功
docker images
5、docker启动镜像命令
docker run -d --runtime nvidia --gpus all --ipc=host -p 8000:8000 \
-v /home/aillm/models:/models -e "PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128" \
--name=qwen3-8b vllm/vllm-openai:v0.8.5.post1 \
--model /models/qwen3-8b \
--trust-remote-code \
--served-model-name Qwen3-8B \
--max_num_seqs 10 \
--tensor-parallel-size 4 \
--gpu_memory_utilization 0.95 \
--dtype float16 \
--enforce-eager \
--disable-custom-all-reduce \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--compilation-config 0 --enable-reasoning \
--reasoning-parser deepseek_r1 \
--rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":40960}' --max-model-len 98304
5.1 启动后日志如下所示
5.2 执行nvidia-smi
命令后显示
6、遇到的问题
1、Error response from daemon: could not select device driver “nvidia” with capabilities: [[gpu]]
# 1、检查主机NVIDIA启动是否正常
nvidia-smi
# 2、检查NVIDIA容器工具包是否正常,项目地址:https://github.com/NVIDIA/nvidia-container-toolkit
# dpkg -l | grep nvidia-container-toolkit
nvidia-ctk
# 3、docker配置NVIDIA参数
sudo vim /etc/docker/daemon.json
#{"default-runtime": "nvidia","runtimes": {"nvidia": {"path": "nvidia-container-runtime","runtimeArgs": []}}
#
sudo systemctl restart docker