关于vllm【常见问题解决方案】
1、启动时报错
【1】
执行命令
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen-2.5-7B-Instruct
报错信息
error: Failures have been detected while processing an MLIR pass pipeline
...
RuntimeError: PassManager::run failed
可能原因
这是 Triton 编译器 在生成 GPU 内核时失败,常见于:
[1] Tesla T4(Compute Capability 7.5) 不支持某些 Triton 特性。
[2] vLLM 版本 + Triton 版本不兼容。
解决方案
[1] 禁用 --enable-prefix-caching
vllm serve /path/to/Qwen-2.5-7B-Instruct --served-model-name Qwen-2.5-7B-Instruct
【2】
执行命令
vllm serve /path/to/Qwen2-7B-Instruct --served-model-name vllm --enable-prefix-caching --served-model-name Qwen2-7B-Instruct
报错信息
CUDA out of memory. Tried to allocate 224.00 MiB.
GPU 0 has a total capacity of 14.58 GiB of which 161.38 MiB is free.
可能原因
因为你的 GPU无法加载 Qwen2-7B-Instruct 模型所需的全部显存。
解决方案
[1] 使用量化模型
使用 4-bit 量化模型(如 Qwen2-7B-Instruct-GPTQ 或 AWQ)。