当前位置: 首页 > news >正文

docker-vllm运行大模型

vllm镜像下载,国内代理源
vllm/vllm-openai - Docker Image - 毫秒镜像https://1ms.run/r/vllm/vllm-openai
执行下载docker pull docker.1ms.run/vllm/vllm-openai

查看本地镜像

查看镜像

查看镜像
docker images导出镜像
docker save -o E:\docker\ollama.tar docker.1ms.run/ollama/ollama:latest
导入镜像
docker load < ollama.tar

启动镜像
 

docker run --runtime nvidia --gpus '"device=0,1,2,3"'  --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4

参数解释:
-v :目录映射
--gpus 使用卡数

ps:
如遇到如下问题,可在启动命令上增加 --privileged

示例
 

docker run --privileged --runtime nvidia --gpus '"device=0,1,2,3"'  --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4

相关文章:

  • 高翔视觉slam中常见的OpenCV和Eigen的几种数据类型的内存布局及分配方式详解
  • 从代码学习深度学习 - 目标检测前置知识(一) PyTorch 版
  • 5.4.2 MVVM例2-用户控件的使用(水在水管中流动的实例)
  • 快速了解Go+rpc
  • MATLAB画一把伞
  • React Three Fiber 详解:现代 Web3D 的利器
  • Vue3取消网络请求的方法(AbortController)
  • jmeter-Beashell获取http请求体json
  • Flutter:组件10、倒计时
  • python如何流模式输出
  • rsync命令详解与实用案例
  • SQLyog中DELIMITER执行存储过程时出现的前置缩进问题
  • 全局id生成器生产方案
  • 23种设计模式-行为型模式之中介者模式(Java版本)
  • 【C++】模板为什么要extern?
  • Cursor —— AI编辑器 使用详解
  • PDF Shaper v15.0
  • vscode chrome调试怎么在所有浏览器都好使
  • 客运从业资格证考试科目有哪些
  • 1.1探索 LLaMA-Factory:大模型微调的一站式解决方案
  • 证据公布!菲律宾6人非法登上铁线礁活动
  • 来伊份一季度净利减少近八成,今年集中精力帮助加盟商成功
  • 第五届全国医院人文管理路演在昆山举办:患者体验才是温度计
  • 美情报机构攻击中国大型商用密码产品提供商,调查报告公布
  • 央行回应美债波动:单一市场、单一资产变动对我国外储影响总体有限
  • 《沙尘暴》:用贴近生活的影像和表演拍摄悬疑剧