当前位置：首页 > news >正文

VLLM : RuntimeError: NCCL error: invalid usage

news 2025/8/16 12:00:35

本机环境

2080 Ti
cuda版本：11.8
torch版本：torch-2.7.0-cu118
vllm版本：0.9.1.dev241+g8335667c2.cu118 （我是源码编译的，pip安装whl正常，但运行提示：Aborted core dumped，所以重新源码编译）

错误提示

RuntimeError: NCCL error: invalid usage (run with NCCL_DEBUG=WARN for details)

定位错误

根据提示，打开NCCL_DEBUG=WARN

1：如果是shell脚本

2：如果是python脚本

NCCL_DEBUG=WARN NCCL_DEBUG_FILE=./nccl_debug.log python your_script.py

3：查看nccl_debug.log

misc/strongstream.cc:53 NCCL WARN NCCL cannot be captured in a graph if either it wasn't built with CUDA runtime >= 11.3 or if the installed CUDA driver < R465.

错误与 issue：https://github.com/vllm-project/vllm/issues/7548 一致，其中也给出了方案

解决方案

重新编译cu118的nccl

参考：Linux下NCCL源码编译安装 - chenzhen0530 - 博客园

git clone https://github.com/NVIDIA/nccl.git
cd nccl
make -j12 src.build BUILDDIR=your-path-to-nccl CUDA_HOME=/usr/local/cuda NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80"

-j12: 表示使用12个核心，可根据自己情况进行调整；
BUILDDIR: 表示编译后，一些文件的存储路径；默认是nccl/build；当然如果是root用户可以指定到/usr/local/ncc/；
CUDA_HOME: 表示CUDA的目录，默认就是/usr/local/cuda（自己ls看一下）；
NVCC_GENCODE：如果不添加该字段，默认会编译支持所有架构；为了加速编译以及降低二进制文件大小，添加该字段，具体comute_？,sm_？需要和自己显卡算力相匹配。

图标来自：https://blog.csdn.net/kabuto_hui/article/details/145949489

替换虚拟环境中的cu118相关文件

查看当前虚拟环境路径后

import sys
sys.prefix

替换头文件和库文件

nccl/lib/* -> 虚拟环境地址/lib/python3.12/site-packages/nvidia/nccl/lib/nccl/include/* -> 虚拟环境地址/lib/python3.12/site-packages/nvidia/nccl/include/

查看全文

http://www.dtcms.com/a/239537.html

RT_Thread——线程管理（下）

高端性能封装正在突破性能壁垒，其芯片集成技术助力人工智能革命。

window 显示驱动开发-如何查询视频处理功能（三）

从零手写Java版本的LSM Tree （八）：LSM Tree 主程序实现

华为云Flexus+DeepSeek征文 | MaaS平台避坑指南：DeepSeek商用服务开通与成本控制

HTML5实现简洁的体育赛事网站源码

Nosql之Redis集群

多元隐函数偏导公式

【微服务基石篇】服务间的对话：RestTemplate、WebClient与OpenFeign对比与实战

我的世界Java版1.21.4的Fabric模组开发教程(十二)方块状态

VRRP（虚拟路由冗余协议）深度解析

API网关Envoy的鉴权与限流：构建安全可靠的微服务网关

算法思想之广度优先搜索（BFS）及示例（亲子游戏）

yolo模型精度提升策略

OpenHarmony标准系统-HDF框架之I2C驱动开发

Gemini 2.5 Pro (0605版本) 深度测评与体验指南

如何将联系人从 iPhone 转移到 Android

初探 OpenCV for Android：利用官方示例开启视觉之旅

计算机技术、互联网与 IT 前沿：量子计算、Web3.0 等趋势洞察及行业应用

生成对抗网络（GAN）损失函数解读

【C++】红黑树的实现详解

《机器学习》（周志华）第二章模型评估与选择

Sklearn 机器学习缺失值处理获取填充失值的统计值

Python爬虫（52）Scrapy-Redis分布式爬虫架构实战：IP代理池深度集成与跨地域数据采集

用docker来安装部署freeswitch记录

「Java基本语法」变量的使用

Hilt -＞ Android 专属依赖注入（DI）框架

VESA DSC 基于FPGA DSC_Encoder IP仿真

ABP vNext + HBase：打造超高吞吐分布式列式数据库

[C#]基于winform部署PP-OCRv5的推理模型paddleocrv5模型部署

相关文章：