当前位置: 首页 > news >正文

离线在docker环境使用vllm部署qwen3

离线部署docker环境使用vllm部署qwen3

1、环境

  • 麒麟V10 sp2
  • nvidia T4 显卡
  • 显卡驱动
  • docker及nvidia-docker
  • vllm v0.8.5
  • qwen3-8b

2、下载模型

国内可从魔塔社区下载qwen3-8b的模型,下载完成后拷贝到内网服务器。

在这里插入图片描述

3、下载vllm镜像

  • 在互联网docker拉取vllm/vllm-openai:v0.8.5.post1
# 拉取镜像命令
sudo docker pull vllm/vllm-openai:v0.8.5.post1
# 将镜像打包成离线tar文件,
docker save -o vllm-openai-085.tar vllm/vllm-openai:v0.8.5.post1
  • 在内网docker上传离线镜像
# 将离线tar文件加载到docker镜像库
docker load -i vllm-openai-085.tar
# 查看镜像是否上传成功
docker images

5、docker启动镜像命令

docker run -d --runtime nvidia --gpus all --ipc=host -p 8000:8000 \
-v /home/aillm/models:/models -e "PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128" \
--name=qwen3-8b vllm/vllm-openai:v0.8.5.post1 \
--model /models/qwen3-8b \
--trust-remote-code \
--served-model-name Qwen3-8B \
--max_num_seqs 10 \
--tensor-parallel-size 4 \
--gpu_memory_utilization 0.95  \
--dtype float16 \
--enforce-eager \
--disable-custom-all-reduce \
--enable-auto-tool-choice \
--tool-call-parser hermes \
--compilation-config 0 --enable-reasoning \
--reasoning-parser deepseek_r1 \
--rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":40960}' --max-model-len 98304
5.1 启动后日志如下所示

在这里插入图片描述

5.2 执行nvidia-smi命令后显示

在这里插入图片描述

6、遇到的问题

1、Error response from daemon: could not select device driver “nvidia” with capabilities: [[gpu]]

在这里插入图片描述

# 1、检查主机NVIDIA启动是否正常
nvidia-smi
# 2、检查NVIDIA容器工具包是否正常,项目地址:https://github.com/NVIDIA/nvidia-container-toolkit
# dpkg -l | grep nvidia-container-toolkit
nvidia-ctk
# 3、docker配置NVIDIA参数
sudo vim /etc/docker/daemon.json
#{"default-runtime": "nvidia","runtimes": {"nvidia": {"path": "nvidia-container-runtime","runtimeArgs": []}}
#
sudo systemctl restart docker
http://www.dtcms.com/a/270801.html

相关文章:

  • JAVA如何实现Redis同步
  • 华为动态路由配置
  • 【图像处理基石】图像超分辨率有哪些研究进展值得关注?
  • ARM单片机OTA解析(一)
  • 图像处理中的凸包检测:原理与实现
  • MS32C001-C单片机,32位ARM M0+内核,宽电压、低功耗、小封装。
  • 图像处理中的模板匹配:原理与实现
  • vue3+ts+echarts多Y轴图表
  • 【WEB】Polar靶场 21-25题 详细笔记
  • ProxySQL 入门到实战
  • Grafana容器化部署
  • Android-重学kotlin(协程基础)新学习总结
  • 基于Java+Maven+Testng+Selenium+Log4j+Allure+Jenkins搭建一个WebUI自动化框架(4)集成Allure报表
  • 2.4G收发SOC芯片 XL2417D,集成高性能2.4GHz射频收发器、32位MCU
  • 基于Java+Maven+Testng+Selenium+Log4j+Allure+Jenkins搭建一个WebUI自动化框架(5)失败用例截图与重试
  • OneCode AIGC时代优秀的三码合一框架实现
  • Python通关秘籍之基础教程(一)
  • 【视频观看系统】- 技术与架构选型
  • 恒盾C#混淆加密大师最新版本1.4.0更新 - 增强各类加密效果, 提升兼容性, 使.NET加密更简单
  • OneCode框架事件基础模型架构深度剖析与代码实现
  • Go语言Gin框架实战:开发技巧
  • PCIe基础知识之Linux内核中PCIe子系统的架构
  • youtube图论
  • 深度解析:将SymPy符号表达式转化为高效NumPy计算函数的通用解决方案
  • 底盘机械臂仿真fetch_gazebo实践
  • 从0开始学习R语言--Day42--LM检验
  • Flume日志采集工具
  • 深入理解图像二值化:从静态图像到视频流实时处理
  • 迁移Oracle SH 示例 schema 到 PostgreSQL
  • qml加载html以及交互