VLLM在linux下部署
1.docker部署
镜像库地址:https://hub.docker.com/r/vllm/vllm-openai/tags
拉取镜像:docker pull vllm/vllm-openai:v0.8.5.post1
启动:
sudo docker run -d --privileged=true --gpus all -v /vllm:/home/llm_deploy -p 9000:8000 --ipc=host --name vllm2025 vllm/vllm-openai:v0.8.5.post1
可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 使用 PyTorch,它使用共享内存在后台进程之间共享数据,特别是对于张量并行推理。
2.pip安装vllm==0.8.5
conda create -n vllm python=3.12 -y
conda activate vllm
pip install vllm
vLLM 是使用 CUDA 12.4 编译的,因此您需要确保机器运行的是该版本的 CUDA。
检查 CUDA 版本,运行:nvcc --version
如果CUDA 版本不是 12.4,可以安装与您当前 CUDA 版本兼容的 vLLM 版本
3.启动vllm命令
cd /home/llm_deploy/
vllm serve RolmOCR --dtype=half/
使用时,模型名称为“RolmOCR ”
4.调用接口
client = OpenAI(api_key="123", base_url="http://192.168.0.226:9000/v1")model = "Qwen3-4B"def chat():response = client.chat.completions.create(model=model,messages=[{"role": "user","content": [{"type": "text","text": "中国首都.\n",},],}],temperature=0.1,max_tokens=4096)return response.choices[0].message.contentprint(chat())