当前位置: 首页 > news >正文

在 Windows Docker 中通过 vLLM 镜像启动指定大模型的方法与步骤

本文汇总了在 Windows Docker 环境下,利用 vLLM 镜像通过 docker run 命令启动自定义大模型(如 Qwen3-32B-AWQ)的完整流程,包含单卡启动多卡启动(含 NCCL 失败解决) 及常见问题排查,确保覆盖历史操作中的关键配置与坑点。

一、单卡启动

1.1 单卡启动命令(可直接复制执行)

docker run --gpus "device=0" `--restart always `--name vllm_Qwen3-32B-AWQ `-p 8000:8000 `-v "E:\models\Qwen3-32B-AWQ:/app/models/Qwen3-32B-AWQ" `vllm/vllm-openai:v0.10.1.1 `--model /app/models/Qwen3-32B-AWQ `--served-model-name Qwen3-32B-AWQ `--tensor-parallel-size 1 `--gpu-memory-utilization 0.8 `--max-num-batched-tokens 8192 `--host 0.0.0.0 `--port 8000 `--trust-remote-code

1.2 命令参数解释(与上述命令逐条对应)

参数 功能说明
--gpus "device=0" 指定使用的 GPU(GPU ID 从 0 开始,可在 PowerShell 中执行 nvidia-smi 查看 GPU ID)。
--restart always 容器意外退出(如 Windows 重启、模型崩溃)时自动重启,保障服务稳定性。
--name vllm_Qwen3-32B-AWQ 给容器分配唯一名称,便于后续管理(如通过名称停止、重启容器)。
-p 8000:8000 将容器的 8000 端口(vLLM 默认 API 端口)映射到 Windows 主机的 8000 端口,外部可通过 localhost:8000 调用 API。
-v "E:\models\Qwen3-32B-AWQ:/app/models/Qwen3-32B-AWQ" 将 Windows 本地模型目录挂载到容器内目录。需确保本地目录包含完整模型文件(如 config.jsontokenizer.model*.safetensors 权重文件)。
vllm/vllm-openai:v0.10.1.1 使用指定版本的 vLLM 镜像(v0.10.1.1 对 Qwen 模型兼容性稳定,也可替换为 latest 以使用最新版本)。
--model /app/models/Qwen3-32B-AWQ 容器内模型文件的路径,必须与 -v 参数中 “容器端路径” 完全一致,否则模型无法找到。
http://www.dtcms.com/a/392156.html

相关文章:

  • 分类预测 | Matlab实现SSA-BP麻雀搜索算法优化BP神经网络多特征分类预测
  • GO实战项目:基于 `HTML/CSS/JS + Gin + Gorm + 文心一言API`AI 备忘录应用
  • 数据结构【堆(⼆叉树顺序结构)和⼆叉树的链式结构】
  • 我爱学算法之—— 位运算(下)
  • LeetCode第364题_加权嵌套序列和II
  • 云计算和云手机之间的关系
  • 胡服骑射对中国传统文化的影响
  • leetcode-hot-100 (多维动态规划)
  • Chromium 138 编译指南 Ubuntu 篇:depot_tools安装与配置(三)
  • 在Ubuntu 16.04上安装openjdk-6/7/8-jdk的步骤
  • 小杰机器学习高级(four)——基于框架的逻辑回归
  • 基于AI分类得视频孪生鹰眼图像三维逆变换矫正算法
  • [Tongyi] 智能代理搜索范式 | 决策->行动->观察(循环迭代)
  • FLink:窗口分配器(Window Assigners)指定窗口的类型
  • GO实战项目:流量统计系统完整实现(Go+XORM+MySQL + 前端)
  • 零基础-动手学深度学习-13.10. 转置卷积
  • 【Math】初三第一、二单元测试卷(测试稿)
  • 2.Spring AI的聊天模型
  • 【连载6】 C# MVC 日志管理最佳实践:归档清理与多目标输出配置
  • autodl平台jupyterLab的使用
  • React学习教程,从入门到精通,React 开发环境与工具详解 —— 语法知识点、使用方法与案例代码(25)
  • 【C++】容器进阶:deque的“双端优势” vs list的“链式灵活” vs vector的“连续高效”
  • llm的ReAct
  • C++ 参数传递方式详解
  • 前端实战开发(一):从参数优化到布局通信的全流程解决方案
  • iOS 层级的生命周期按三部分(App / UIViewController / UIView)
  • 第一章 自然语言处理领域应用
  • GitHub又打不开了?
  • OpenAI回归机器人:想把大模型推向物理世界
  • QML学习笔记(五)QML新手入门其三:通过Row和Colunm进行简单布局