Google Cloud Platform(GCP)实例中使用显卡信息报错问题
虽然大家工作中经常会用到GPU,但是不同平台的初始化还是不尽相同。这里分享一下我近期因为一些原因需要把训练任务迁移到GCP遇到的问题。
我申请了带有H100的实例,但是在查询命令时一直报错
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.
遇到NVIDIA-SMI has failed
错误,通常是因为 NVIDIA 驱动程序未正确安装或未加载。以下是针对 GCP Debian 实例的完整解决方案:
解决方案步骤:
-
安装必要的依赖项:
sudo apt update sudo apt install -y linux-headers-$(uname -r) build-essential dkms
-
禁用 Nouveau 驱动(Debian 默认开源驱动):
echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nvidia-nouveau.conf echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nvidia-nouveau.conf sudo update-initramfs -u
-
安装 GCP 官方推荐的 NVIDIA 驱动:
curl -O https://raw.githubusercontent.com/GoogleCloudPlatform/compute-gpu-installation/main/linux/install_gpu_driver.py sudo python3 install_gpu_driver.py
-
重启实例:
sudo reboot
-
验证安装:
nvidia-smi # 应显示 H100 显卡信息 lsmod | grep nvidia # 检查驱动模块是否加载
常见问题排查:
-
检查 GPU 是否被识别:
lspci | grep -i nvidia
- 正常情况会输出类似如下信息
04:00.0 3D controller: NVIDIA Corporation GH100[H100 SXM5 80GB] (rev a1)
- 如果无输出,说明 GCP 实例未正确附加 GPU。检查:
- 实例配置中是否选择了
H100
GPU - 实例是否在支持 H100 的区域(如
europe-west4-a
) - 实例状态为
RUNNING
- 实例配置中是否选择了
- 正常情况会输出类似如下信息
-
安装日志分析:
查看安装日志确认错误:cat /var/log/install_gpu_driver.log
-
手动安装驱动(如果官方脚本失败):
# 添加非免费源 sudo sed -i 's/main/main contrib non-free/g' /etc/apt/sources.list sudo apt update# 安装驱动(使用最新版本) sudo apt install -y nvidia-driver firmware-misc-nonfree sudo reboot
-
检查 CUDA 兼容性(H100 需要 CUDA 11.8+):
sudo apt install nvidia-cuda-toolkit nvcc --version
注意事项:
- GCP 特殊要求:H100 需要
n2
/a3
实例类型(如a3-highgpu-8g
) - 驱动版本:H100 需要 R515 或更高版本的驱动
- 操作系统:确认 Debian 版本支持(推荐 Debian 11+)
如果问题仍存在,尝试:
# 强制重新加载驱动
sudo rmmod nvidia_uvm nvidia_drm nvidia_modeset nvidia
sudo modprobe nvidia
重要提示:GCP 可能要求申请GPU配额 Quotas。首次使用 H100 需在控制台申请配额。