[docker]Failed to initialize NVML: Unknown Error
我最近在新服务器上安装gpustack,在验证NVIDIA Container Toolkit是否安装好的过程中,运行:
sudo docker run --rm --gpus all nvidia/cuda:11.8.0-base-ubuntu22.04 nvidia-smi
报错:
Failed to initialize NVML: Unknown Error
查了一下网上解决方案,一般说是cgroup引起的,在daemon.json文件内添加"exec-opts": ["native.cgroupdriver=cgroupfs"]就好。
sudo vim /etc/docker/daemon.json
"exec-opts": ["native.cgroupdriver=cgroupfs"]
然后重启docker
sudo service docker restart
但经过上述操作之后,我发现没用,打开config.toml和原服务器对比后
cd /etc/nvidia-container-runtime/
sudo vim config.toml
发现原服务器为:
#no-cgroups = false
新服务器为:
no-cgroups = True
改为一致后,再重启,就正常了