当前位置: 首页 > news >正文

VLLM : RuntimeError: NCCL error: invalid usage

本机环境

  • 2080 Ti
  • cuda版本:11.8
  • torch版本:torch-2.7.0-cu118
  • vllm版本:0.9.1.dev241+g8335667c2.cu118 (我是源码编译的,pip安装whl正常,但运行提示:Aborted core dumped,所以重新源码编译)

错误提示

RuntimeError: NCCL error: invalid usage (run with NCCL_DEBUG=WARN for details)

定位错误

根据提示,打开NCCL_DEBUG=WARN 

  • 1:如果是shell脚本 

  • 2:如果是python脚本
NCCL_DEBUG=WARN NCCL_DEBUG_FILE=./nccl_debug.log python your_script.py
  • 3:查看nccl_debug.log

misc/strongstream.cc:53 NCCL WARN NCCL cannot be captured in a graph if either it wasn't built with CUDA runtime >= 11.3 or if the installed CUDA driver < R465. 

错误与 issue:https://github.com/vllm-project/vllm/issues/7548 一致,其中也给出了方案

解决方案

重新编译cu118nccl

参考:Linux下NCCL源码编译安装 - chenzhen0530 - 博客园

git clone https://github.com/NVIDIA/nccl.git
cd nccl
make -j12 src.build BUILDDIR=your-path-to-nccl CUDA_HOME=/usr/local/cuda NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80"

-j12: 表示使用12个核心,可根据自己情况进行调整;
BUILDDIR: 表示编译后,一些文件的存储路径;默认是nccl/build;当然如果是root用户可以指定到/usr/local/ncc/;
CUDA_HOME: 表示CUDA的目录,默认就是/usr/local/cuda(自己ls看一下);
NVCC_GENCODE:如果不添加该字段,默认会编译支持所有架构;为了加速编译以及降低二进制文件大小,添加该字段,具体comute_?,sm_?需要和自己显卡算力相匹配。

图标来自:https://blog.csdn.net/kabuto_hui/article/details/145949489

替换虚拟环境中的cu118相关文件

查看当前虚拟环境路径后

import sys
sys.prefix

替换头文件 和 库文件

nccl/lib/* -> 虚拟环境地址/lib/python3.12/site-packages/nvidia/nccl/lib/nccl/include/* -> 虚拟环境地址/lib/python3.12/site-packages/nvidia/nccl/include/

相关文章:

  • RT_Thread——线程管理(下)
  • 高端性能封装正在突破性能壁垒,其芯片集成技术助力人工智能革命。
  • window 显示驱动开发-如何查询视频处理功能(三)
  • 从零手写Java版本的LSM Tree (八):LSM Tree 主程序实现
  • 华为云Flexus+DeepSeek征文 | MaaS平台避坑指南:DeepSeek商用服务开通与成本控制
  • HTML5实现简洁的体育赛事网站源码
  • Nosql之Redis集群
  • 多元隐函数 偏导公式
  • 【微服务基石篇】服务间的对话:RestTemplate、WebClient与OpenFeign对比与实战
  • 我的世界Java版1.21.4的Fabric模组开发教程(十二)方块状态
  • VRRP(虚拟路由冗余协议)深度解析
  • API网关Envoy的鉴权与限流:构建安全可靠的微服务网关
  • 算法思想之广度优先搜索(BFS)及示例(亲子游戏)
  • yolo模型精度提升策略
  • OpenHarmony标准系统-HDF框架之I2C驱动开发
  • Gemini 2.5 Pro (0605版本) 深度测评与体验指南
  • 如何将联系人从 iPhone 转移到 Android
  • 初探 OpenCV for Android:利用官方示例开启视觉之旅
  • 计算机技术、互联网与 IT 前沿:量子计算、Web3.0 等趋势洞察及行业应用
  • 生成对抗网络(GAN)损失函数解读
  • 网站开发团队职能/网店代运营合同
  • 太原网站建设托管/网站开发平台有哪些
  • 常州设计公司/seo每日
  • 西安网站搭建建设定制/谷歌商店官网下载
  • 响应式企业网站建设/nba交易最新消息
  • 个人网站用备案吗/十大seo免费软件