当前位置: 首页 > news >正文

单张显卡运行多个vllm模型

可以控制最大显存使用率,这对于在单张显卡上运行多个模型实例至关重要。

你可以通过 vLLM 的 --gpu-memory-utilization 参数来实现这一点。

参数说明

--gpu-memory-utilization <fraction>

  • 这个参数用于指定 vLLM 实例可以使用的 GPU 显存的比例。
  • <fraction> 是一个 0 到 1 之间的小数。例如,0.5 表示使用 50% 的显存。
  • 通过为每个模型容器设置一个较低的比例,你可以为其他模型实例或其他在 GPU 上运行的程序预留出足够的显存。

操作示例:在单张显卡上启动两个模型

假设你有一张显卡,并且希望同时运行两个模型,每个模型大约使用 45% 的显存(留出 10% 的余量给系统和其他开销)。

  1. 启动第一个模型容器 (Model A)

    • 将显存使用率限制在 45% (0.45)。
    • 将服务端口映射到主机的 8001
    docker run --runtime nvidia --gpus all \-v ~/.cache/huggingface:/root/.cache/huggingface \-p 8001:8000 \--ipc=host \vllm/vllm-openai:latest \--model /root/.cache/huggingface/hub/Qwen/Qwen2___5-0___5B-Instruct \--gpu-memory-utilization 0.45
    
  2. 启动第二个模型容器 (Model B)

    • 同样将显存使用率限制在 45% (0.45)。
    • 将服务端口映射到主机的 8002 (确保端口不冲突)。
    docker run --runtime nvidia --gpus all \-v ~/.cache/huggingface:/root/.cache/huggingface \-p 8002:8000 \--ipc=host \vllm/vllm-openai:latest \--model /root/.cache/huggingface/hub/Qwen/Qwen2___5-3B-Instruct \--gpu-memory-utilization 0.45
    

重要注意事项:

  • 模型大小:请确保分配给每个模型的显存(例如 45% 的总显存)足以加载该模型。如果模型太大,即使分配了 45% 的显存也不足以运行,那么容器将启动失败。
  • 显存余量:总使用率最好不要设置为 1.0 (例如 0.5 + 0.5)。建议留出一些余量(如 5%-10%),因为操作系统、CUDA 上下文和驱动本身也需要消耗一部分显存。
  • 性能影响:限制显存使用率会直接影响 vLLM 的性能。vLLM 的核心优势 PagedAttention 需要使用显存来存储 KV 缓存。可用的显存越少,能够处理的并发请求数和最大序列长度就会越有限,从而可能影响吞吐量。
http://www.dtcms.com/a/292514.html

相关文章:

  • 零基础数据结构与算法——第五章:高级算法-回溯算法子集全排列问题
  • ZooKeeper学习专栏(六):集群模式部署与解析
  • C++ new 创建数组的内在原理详解
  • linux 环境服务发生文件句柄泄漏导致服务不可用
  • ELF 文件操作手册
  • python学习-读取csv文件
  • 如何验证分类模型输出概率P值的“好坏”:评估与校准示例
  • GitHub 上的开源项目 ticktick(滴答清单)
  • recvmsg函数的用法
  • 算法学习--滑动窗口
  • 学习python中离线安装pip及下载package的方法
  • C语言:函数基础
  • day059-zabbix自定义监控与自动发现
  • Node.js:Web模块、Express框架
  • es6中的symbol基础知识
  • 在Android开发中,如何获取到手机设备的PIN码?
  • 如何安装CMake较新的版本
  • Apache Ignite 长事务终止机制
  • 精密全波整流电路(一)
  • torchvision.transforms 与 MONAI 数据增强的异同
  • Cloud 与 VPS 的区别:如何选择最适合你的服务器解决方案?
  • stream流入门
  • 【打怪升级 - 01】保姆级机器视觉入门指南:硬件选型 + CUDA/cuDNN/Miniconda/PyTorch 安装全流程(附版本匹配秘籍)
  • vmware 克隆虚拟机,报错:克隆时出错:指定不存在的设备。然后电脑卡死,只能强制关机再开机。
  • FastDFS 6.11.0 单机环境搭建与测试(附 Nginx 集成)+ docker构建+k8s启动文件
  • 用org.apache.pdfbox 转换 PDF 到 图片格式
  • KafkaMQ 日志采集最佳实践
  • Python 正则表达式:入门到实战
  • 日常随笔-React摘要
  • 【ROS/DDS】FastDDS :编写FastDDS程序实现与ROS2 通讯(四)