当前位置: 首页 > news >正文

使用vllm创建相同模型的多个实例,使用nginx进行负载均衡,提高模型吞吐量

背景

要提高vllm部署的大模型吞吐量,可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手,以下是具体建议:

一、提高 gpu-memory-utilization 的效果与操作

gpu-memory-utilization 控制vllm预分配的GPU内存比例(默认0.9),当前值0.35预留了过多显存,是吞吐量低的重要原因。

  • 提升空间:合理提高该值可显著增加批处理能力。例如从0.35提升到0.7-0.8(需根据实际显存占用测试),理论上能将单次批处理量提升1-2倍(具体取决于模型大小)。
  • 操作建议
    1. 先逐步提高至0.6,测试是否出现OOM(内存溢出)错误:
      CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.openai.api_server \--model /home/liuzhiming/.../dir \--port 18889 \--tensor-parallel-size 1 \--max-num-batched-tokens 16384  # 同步增大批处理token上限 \--max-num-seqs 512  # 同步增大序列数上限 \--gpu-memory-utilization 0.6 
http://www.dtcms.com/a/298128.html

相关文章:

  • 浅谈数字花园
  • jenston nano+conda+pytorch的部署办法
  • 一次“非法指令”(SIGILL)问题的完整调试过程:CPU指令集兼容性探秘
  • Windows Server 2003 R2系统C盘扩容教程
  • 本地部署Dify教程
  • 软件工程之可行性研究:从理论到实践的全面解析
  • Tomcat线程池深度优化指南:高并发场景下的maxConnections计算与监控体系
  • 当人机交互迈向新纪元:脑机接口与AR/VR/MR的狂飙之路
  • 管理 GitHub Pages 站点的自定义域(Windows)
  • 【Web】DASCTF 2025上半年赛 wp
  • 牛客刷题记录01
  • 软件工程的工具链演进
  • Lua(数据库访问)
  • (CVPR 2025 )基于学习的自动HSI光谱校准方法
  • [CSS]让overflow不用按shift可以滚轮水平滚动(纯CSS)
  • 【氮化镓】GaN取代GaAs作为空间激光无线能量传输光伏转换器材料
  • SQL server 2019删除重建用户
  • Dify数据可视化-AntV Visualization Chart
  • 「iOS」——多线程原理总结
  • Codeforces Round 735 (Div. 2) D. Diane
  • 页面实时数据更新(进入页面或者浏览器后退前进状态刷新页面)
  • 单目云台是一种安防监控设备,它通常配备一个摄像机,用于实现远程监控和目标追踪
  • nacos的配置中心
  • MySQL性能优化配置终极指南
  • 算法讲解--有效三角形的个数
  • 将本地项目推送到远程github仓库
  • Promise的allSettled,all,race
  • RCE真实漏洞初体验
  • CGA老年综合评估汉密尔顿抑郁量表与认知评估联用
  • HTML 常用标签速查表