当前位置：首页 > news >正文

使用vllm创建相同模型的多个实例，使用nginx进行负载均衡，提高模型吞吐量

news 2025/7/26 9:12:15

背景

要提高vllm部署的大模型吞吐量，可以从显存利用率优化、多实例部署、参数调优和流程优化等多个维度入手，以下是具体建议：

一、提高 `gpu-memory-utilization` 的效果与操作

gpu-memory-utilization 控制vllm预分配的GPU内存比例（默认0.9），当前值0.35预留了过多显存，是吞吐量低的重要原因。

提升空间：合理提高该值可显著增加批处理能力。例如从0.35提升到0.7-0.8（需根据实际显存占用测试），理论上能将单次批处理量提升1-2倍（具体取决于模型大小）。

操作建议：

先逐步提高至0.6，测试是否出现OOM（内存溢出）错误：

CUDA_VISIBLE_DEVICES=1 python -m vllm.entrypoints.openai.api_server \--model /home/liuzhiming/.../dir \--port 18889 \--tensor-parallel-size 1 \--max-num-batched-tokens 16384  # 同步增大批处理token上限 \--max-num-seqs 512  # 同步增大序列数上限 \--gpu-memory-utilization 0.6

http://www.dtcms.com/a/298128.html

相关文章：

浅谈数字花园

jenston nano+conda+pytorch的部署办法

一次“非法指令”(SIGILL)问题的完整调试过程：CPU指令集兼容性探秘

Windows Server 2003 R2系统C盘扩容教程

本地部署Dify教程

软件工程之可行性研究：从理论到实践的全面解析

Tomcat线程池深度优化指南：高并发场景下的maxConnections计算与监控体系

当人机交互迈向新纪元：脑机接口与AR/VR/MR的狂飙之路

管理 GitHub Pages 站点的自定义域（Windows）

【Web】DASCTF 2025上半年赛 wp

牛客刷题记录01

软件工程的工具链演进

Lua（数据库访问）

（CVPR 2025 ）基于学习的自动HSI光谱校准方法

[CSS]让overflow不用按shift可以滚轮水平滚动(纯CSS)

【氮化镓】GaN取代GaAs作为空间激光无线能量传输光伏转换器材料

SQL server 2019删除重建用户

Dify数据可视化-AntV Visualization Chart

「iOS」——多线程原理总结

Codeforces Round 735 (Div. 2) D. Diane

页面实时数据更新（进入页面或者浏览器后退前进状态刷新页面）

单目云台是一种安防监控设备，它通常配备一个摄像机，用于实现远程监控和目标追踪

nacos的配置中心

MySQL性能优化配置终极指南

算法讲解--有效三角形的个数

将本地项目推送到远程github仓库

Promise的allSettled,all,race

RCE真实漏洞初体验

CGA老年综合评估汉密尔顿抑郁量表与认知评估联用

HTML 常用标签速查表