当前位置：首页 > news >正文

怎么计算vllm启动大模型的并发数

news 2025/10/15 13:07:14

🧠 一、影响 vLLM 并发请求数的关键因素
请添加图片描述

⸻

🔍 二、实时查看当前并发请求数 / 队列情况

vLLM 本身有监控接口与日志输出，可以直接观察：

1️⃣ 查看日志输出

在你运行命令的终端或日志文件（例如你用的）

nohup python3 -m vllm.entrypoints.openai.api_server ... > vllm_server.log 2>&1 &

然后查看日志：

tail -f vllm_server.log

你会看到类似：

INFO [Engine] num_requests_running=12 num_waiting=5 max_num_seqs=128

解释：
• num_requests_running: 当前正在执行的请求数量
• num_waiting: 正在排队等待的请求数量
• max_num_seqs: 最大可同时运行请求数（来自你的配置）

⸻

2️⃣ 查看 HTTP 监控接口（推荐）

vLLM 启动后自带一个监控 API：

GET http://localhost:8000/metrics

执行命令查看：

curl http://localhost:8000/metrics | grep vllm

输出会包含 Prometheus 格式的监控指标，比如：

vllm_running_requests 32
vllm_waiting_requests 8
vllm_num_finished_requests_total 1052
vllm_gpu_memory_usage_bytes 73400320000

这几个指标直接告诉你当前：
• 有多少请求在运行
• 有多少在排队
• GPU 显存占用情况

你可以把这些 metrics 挂在 Prometheus + Grafana 做实时监控。

⸻

3️⃣ 代码中查看（OpenAI 兼容接口）

如果你在用 OpenAI 接口调用：

openai.api_key = "none"
openai.base_url = "http://localhost:8000/v1"

vLLM 会在负载过高时返回：

{"error": {"message": "Server busy, please retry later","type": "server_overloaded"}
}

这表明当前已经达到 max-num-seqs 上限。

⸻

⚙️ 三、手动配置或限制最大并发请求数

1️⃣ 设置最大序列数

在启动命令中添加参数：

--max-num-seqs 128

👉 表示最多同时处理 128 个请求（包括生成和等待的 token 序列）。

2️⃣ 设置显存使用率上限

--gpu-memory-utilization 0.9

👉 vLLM 会在达到 90% 显存时拒绝新请求，自动排队或返回 “busy” 错误。

3️⃣ Nginx 层限流（上层防护）

在你的反向代理层可以加上：

limit_conn_zone $binary_remote_addr zone=addr:10m;
limit_conn addr 20;
limit_req zone=req_limit_per_ip burst=5 nodelay;

👉 限制每个客户端最多并发 20 个请求，超过的直接拒绝。

⸻

📈 四、估算最大可并发请求数

经验公式（粗略）：

$Nmax≈GPU_显存(GB)×利用率上下文长度×0.001N_{max} \approx \frac{GPU\_显存(GB) × 利用率}{上下文长度 × 0.001}$

例如：

参数值
显存 80 GB
利用率 0.9
每请求上下文 2000 tokens
单 token KV cache ≈ 1 KB
⇒ 每请求占显存 ≈ 2MB

计算：
$Nmax≈80×0.9×10242≈36,864≈36个请求（单卡）N_{max} ≈ \frac{80 × 0.9 × 1024}{2} ≈ 36,864 ≈ 36 个请求（单卡）$

多卡（TP=4）约可达 120~150 个并发请求。

⸻

✅ 总结：查看并发能力的几种方式

请添加图片描述

查看全文

http://www.dtcms.com/a/483650.html

使用python将canoe的日志文件转为可文本查看的csv文件

首页%3e新闻%3e正文网站怎么做电子商务搭建平台

Spring全家桶介绍

中英双板网站模版网上给别人做网站

dcpatchscan.exe这是什么

从零学算法2131

IT做网站工资怎么样天水网站开发

C++异常与智能指针

网站后台信息怎么更新忽悠别人做商城网站

NVMe高速传输之摆脱XDMA设计53：选择测试环境软件平台

品牌网站建设磐石网络优等网站如何不被百度搜到

如何让Agent停止输出，使用strands agents sdk

Json数据字段类型兼容性处理

IvorySQL 亮相第 27 届中国国际软件博览会：开源创新，共筑软件新生态

景安一个空间怎么做多个网站wampserver装wordpress

Electron技术深度解析：跨平台桌面开发的利器与挑战

FocusAny 发布v1.1.0 插件搜索过滤，FAD文件优化，插件显示MCP服务

AI硬件的“窄门”：未来智能创始人马啸的成功与启示

潍坊信息网网站建设手机网页尺寸

做羞羞的事的网站东莞最新招聘

上海网站设计外包微信小程序登录入口官网

活动网站源码网站开发手机电脑

学而思编程网站重庆荣昌网站建设价格

个人的网站备案多少钱福州鼓楼区建设局网站

python如何使用nacos

网站建设建站南京哪里做网站

有谁知道网站优化怎么做大型门户网站核心技术

网站开发过程中的功能需求分析wordpress小插件下载

网站运营推广该如何做上海做网站公司有哪些

网站建设方案范文2000字扁平化网站配色

相关文章：