当前位置: 首页 > news >正文

docker-vllm运行大模型

vllm镜像下载,国内代理源
vllm/vllm-openai - Docker Image - 毫秒镜像https://1ms.run/r/vllm/vllm-openai
执行下载docker pull docker.1ms.run/vllm/vllm-openai

查看本地镜像

查看镜像

查看镜像
docker images导出镜像
docker save -o E:\docker\ollama.tar docker.1ms.run/ollama/ollama:latest
导入镜像
docker load < ollama.tar

启动镜像
 

docker run --runtime nvidia --gpus '"device=0,1,2,3"'  --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4

参数解释:
-v :目录映射
--gpus 使用卡数

ps:
如遇到如下问题,可在启动命令上增加 --privileged

示例
 

docker run --privileged --runtime nvidia --gpus '"device=0,1,2,3"'  --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4

http://www.dtcms.com/a/162880.html

相关文章:

  • 高翔视觉slam中常见的OpenCV和Eigen的几种数据类型的内存布局及分配方式详解
  • 从代码学习深度学习 - 目标检测前置知识(一) PyTorch 版
  • 5.4.2 MVVM例2-用户控件的使用(水在水管中流动的实例)
  • 快速了解Go+rpc
  • MATLAB画一把伞
  • React Three Fiber 详解:现代 Web3D 的利器
  • Vue3取消网络请求的方法(AbortController)
  • jmeter-Beashell获取http请求体json
  • Flutter:组件10、倒计时
  • python如何流模式输出
  • rsync命令详解与实用案例
  • SQLyog中DELIMITER执行存储过程时出现的前置缩进问题
  • 全局id生成器生产方案
  • 23种设计模式-行为型模式之中介者模式(Java版本)
  • 【C++】模板为什么要extern?
  • Cursor —— AI编辑器 使用详解
  • PDF Shaper v15.0
  • vscode chrome调试怎么在所有浏览器都好使
  • 客运从业资格证考试科目有哪些
  • 1.1探索 LLaMA-Factory:大模型微调的一站式解决方案
  • RabbitMQ Linux 安装教程详解
  • 双系统,bios默认设置启动ubuntu+ubuntu改启动grub设置
  • 【仿真】Ubuntu 22.04 安装MuJoCo 3.3.2
  • 高等数学-第七版-下册 选做记录 习题9-5
  • Spring是如何实现ApplicationContext应用上下文
  • 提示词工程实战指南:解锁AI创作的隐藏技巧与实例
  • 大模型在肾癌诊疗全流程中的应用研究报告
  • iOS—仿tableView自定义闹钟列表
  • KUKA机器人关机时冷启动介绍
  • iOS - 音频: Core Audio - 播放