当前位置: 首页 > news >正文

VLLM在linux下部署

1.docker部署

镜像库地址:https://hub.docker.com/r/vllm/vllm-openai/tags

拉取镜像:docker pull vllm/vllm-openai:v0.8.5.post1

启动:

sudo docker run  -d  --privileged=true --gpus all -v /vllm:/home/llm_deploy     -p 9000:8000  --ipc=host     --name vllm2025     vllm/vllm-openai:v0.8.5.post1

可以使用 ipc=host 标志或 --shm-size 标志来允许容器访问主机的共享内存。 vLLM 使用 PyTorch,它使用共享内存在后台进程之间共享数据,特别是对于张量并行推理。

2.pip安装vllm==0.8.5 

conda create -n vllm python=3.12 -y
conda activate vllm

pip install vllm

vLLM 是使用 CUDA 12.4 编译的,因此您需要确保机器运行的是该版本的 CUDA。

检查 CUDA 版本,运行:nvcc --version

 如果CUDA 版本不是 12.4,可以安装与您当前 CUDA 版本兼容的 vLLM 版本

3.启动vllm命令

cd /home/llm_deploy/

vllm serve  RolmOCR --dtype=half/

使用时,模型名称为“RolmOCR ”

4.调用接口

  client = OpenAI(api_key="123", base_url="http://192.168.0.226:9000/v1")model = "Qwen3-4B"def chat():response = client.chat.completions.create(model=model,messages=[{"role": "user","content": [{"type": "text","text": "中国首都.\n",},],}],temperature=0.1,max_tokens=4096)return response.choices[0].message.contentprint(chat())

相关文章:

  • 2023CCPC东北四省赛题解
  • python正方形面积 2024年信息素养大赛复赛/决赛真题 小学组/初中组 python编程挑战赛 真题详细解析
  • embedding的微调
  • 有动画效果,但动画窗格里为空
  • HJ33 整数与IP地址间的转换【牛客网】
  • 让电脑不再卡,从清理系统做起
  • Python Web开发基础
  • 【Linux笔记】——网络基础
  • 小林八股Java集合笔记(8k字概要版)
  • 【题解-洛谷】P11951 [科大国创杯初中组 2023] 数数
  • 数仓-概念模型、逻辑模型、物理模型介绍
  • 鸿蒙进阶——CMakelist、GN语法简介及三方库通用移植指南
  • VSCode C/C++ 开发环境完整配置及一些扩展用途(自用)update:2025/3/31
  • AllToAll通信为什么用于EP并行?
  • IDC机房交换机紧急更换的流程和注意事项
  • audio结构体 audio_track_cblk_t
  • 容器资源绑定和查看
  • 解决wsl没代理的问题
  • 【电流探头】LOTO电流探头线性度测量
  • 查看使用宿主机模式的Docker容器端口
  • 在洪雅网站做企业招聘/快速网站轻松排名
  • 个人网站 教程/人力资源培训与开发
  • 十个最好的网站/seo搜索引擎优化实训总结
  • 宁波高端网站设计价格/3d建模培训学校哪家好
  • gravatar wordpress/怎么优化网站关键词的方法
  • 实验室网站模板/代刷网站推广