【NVIDIA-B200】生产报错 Test CUDA failure common.cu:1035 ‘system not yet initialized‘
目录
1. 检查 NVIDIA 驱动状态
2. 验证 CUDA 安装情况
3. 检查相关服务运行状态(多 GPU 场景关键)
4. 用简单 CUDA 程序验证基础功能
5. 重启系统
6. 排查硬件相关问题
7.实际生产解决步骤
报错日志:
# Collective test starting: all_reduce_perf
# nThread 1 nGpus 8 minBytes 8 maxBytes 536870912 step: 2(factor) warmup iters: 5 iters: 20 agg iters: 1 validation: 1 graph: 0
#
# Using devices
b1-g38: Test CUDA failure common.cu:1035 'system not yet initialized'.. b1-g38 pid 9266: Test failure common.cu:941
当测试 CUDA 时出现 “common.cu:1035'system not yet initialized'” 错误,通常意味着 CUDA 运行时环境未正确初始化,这往往与驱动程序或系统配置问题相关。以下是具体的排查步骤:
1. 检查 NVIDIA 驱动状态
首先确认 NVIDIA 驱动是否已加载并正常工作:
bash