当前位置：首页 > news >正文

VLLM在linux下部署

news 2025/10/31 6:24:06

1.docker部署

镜像库地址：https://hub.docker.com/r/vllm/vllm-openai/tags

拉取镜像：docker pull vllm/vllm-openai:v0.8.5.post1

启动：

sudo docker run -d --privileged=true --gpus all -v /vllm:/home/llm_deploy -p 9000:8000 --ipc=host --name vllm2025 vllm/vllm-openai:v0.8.5.post1

可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 使用 PyTorch，它使用共享内存在后台进程之间共享数据，特别是对于张量并行推理。

2.pip安装vllm==0.8.5

conda create -n vllm python=3.12 -y
conda activate vllm

pip install vllm

vLLM 是使用 CUDA 12.4 编译的，因此您需要确保机器运行的是该版本的 CUDA。

检查 CUDA 版本，运行：nvcc --version

如果CUDA 版本不是 12.4，可以安装与您当前 CUDA 版本兼容的 vLLM 版本

3.启动vllm命令

cd /home/llm_deploy/

vllm serve RolmOCR --dtype=half/

使用时，模型名称为“RolmOCR ”

4.调用接口

  client = OpenAI(api_key="123", base_url="http://192.168.0.226:9000/v1")model = "Qwen3-4B"def chat():response = client.chat.completions.create(model=model,messages=[{"role": "user","content": [{"type": "text","text": "中国首都.\n",},],}],temperature=0.1,max_tokens=4096)return response.choices[0].message.contentprint(chat())

http://www.dtcms.com/a/207646.html

相关文章：

2023CCPC东北四省赛题解

python正方形面积 2024年信息素养大赛复赛/决赛真题小学组/初中组 python编程挑战赛真题详细解析

embedding的微调

有动画效果，但动画窗格里为空

HJ33 整数与IP地址间的转换【牛客网】

让电脑不再卡，从清理系统做起

Python Web开发基础

【Linux笔记】——网络基础

小林八股Java集合笔记（8k字概要版）

【题解-洛谷】P11951 [科大国创杯初中组 2023] 数数

数仓-概念模型、逻辑模型、物理模型介绍

鸿蒙进阶——CMakelist、GN语法简介及三方库通用移植指南

VSCode C/C++ 开发环境完整配置及一些扩展用途（自用）update:2025/3/31

AllToAll通信为什么用于EP并行？

IDC机房交换机紧急更换的流程和注意事项

audio结构体 audio_track_cblk_t

容器资源绑定和查看

解决wsl没代理的问题

【电流探头】LOTO电流探头线性度测量

查看使用宿主机模式的Docker容器端口

0x90属性中的属性名$I30和Scb-＞AttributeName的关系

vue3+element-plus+pinia完整搭建好看简洁的管理后台

【愚公系列】《Manus极简入门》054-家庭冲突调解师：“家庭和谐使者”

1998-2023年各地级市地区生产总值、地级市GDP数据（全市）

杨校老师竞赛课之青科赛GOC3-4年级组模拟题

【博通芯片方案】调试指令详解版二（无线）

C++学习：六个月从基础到就业——多线程编程：线程池实现

day26- 系统编程之文件IO(II) 及文件属性

DeepSeek：开启IT领域人效管理新时代

【无标题】西门子S7-1500PLC与西门子V90 PN伺服通讯控制项目程序项目程序，共有8轴，编码器信号直接输入到变频器内。