当前位置：首页 > news >正文

关于vllm【常见问题解决方案】

news 2025/11/14 1:48:02

1、启动时报错

【1】

执行命令

vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct

报错信息

error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed

可能原因
这是 Triton 编译器在生成 GPU 内核时失败，常见于：
[1] Tesla T4（Compute Capability 7.5）不支持某些 Triton 特性。
[2] vLLM 版本 + Triton 版本不兼容。
解决方案
[1] 禁用 --enable-prefix-caching

vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct

【2】

执行命令

vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct

报错信息

CUDA out of memory. Tried to allocate 224.00 MiB.
GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free.

可能原因
因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。
解决方案
[1] 使用量化模型
使用 4-bit 量化模型（如 Qwen2-7B-Instruct-GPTQ 或 AWQ）。

查看全文

http://www.dtcms.com/a/313658.html

XtraBackup备份与恢复

Python 程序设计讲义（61）：Python 的函数——变量的作用域

【运维基础】Linux 硬盘分区管理

[Oracle] DUAL数据表

[自动化Adapt] 录制引擎 | iframe 穿透 | NTP | AIOSQLite | 数据分片

第二节 YOLOv5参数

Python 程序设计讲义（59）：Python 的函数——labmda函数（匿名函数）

四、驱动篇-HDF驱动介绍2

sublime 乱码问题

JavaEE文件泄露与修复方案

Linux | i.MX6ULL移植 Gdb+Gdbserver 调试(第十四章)

深入解析 Linux Kernel 中的设备树：使用、修改与实际应用

经典文献阅读之--ViNT(视觉导航的基础模型)

《汇编语言：基于X86处理器》第11章 MS-Windows编程(3)

8.3 Java Web（JavaScript P15-P28）

Leetcode——365. 水壶问题

决策树模型知识点整理：从原理到实战（含可视化与调参）

[硬件电路-134]：模拟电路 - 运算放大器常见运算：两模拟信号相加、相减、单模拟信号的积分、微分...

HTTPS的概念和工作过程

Ollama模型库模型下载慢完美解决(全平台)

模型学习系列之参数

pytorch深度学习全流程：以简易数据、模型介绍

linux火焰图

vuhub Noob靶场攻略

雪花算法重复id问题

Maxscript在选择的可编辑多边形每个面上绘制一个内部圆形

自动驾驶中的传感器技术19——Camera（10）

OS21.【Linux】环境变量

CMake 命令行参数完全指南（5）

graph TD的规则

1、启动时报错

【1】

【2】

相关文章：