当前位置: 首页 > news >正文

Nvidia-smi 运行失败(Failed to initialize NVML: Driver/library version mismatch)

问题排查

在linux服务器上运行 nvidia-smi 命令,提示以下错误:

Failed to initialize NVML: Driver/library version mismatch

首先查看内核驱动版本:

cat /proc/driver/nvidia/version

然后查看当前NVIDIA驱动版本:

sudo dpkg --list | grep nvidia-*

发现两个驱动版本不一致。

通过排查日志,可以发现原因是早上6点多,服务器上的nvidia自动更新了,把原来535.54.03版本升级到了534.230.002,导致跟内核版本不一致。

cat /var/log/dpkg.log | grep nvidia

在这里插入图片描述

解决方案

第一步、重启

在实践中,很多时候只需要重启就能解决。

sudo reboot

如果重启后能成功启动 nvidia-smi,恭喜你解决了。

如果重启不生效,那么可以继续往下看。

第二步、删除现有显卡驱动

如果出现提示选择,选yes/Y一直往下操作就行。

sudo /usr/bin/nvidia-uninstall
sudo apt-get purge nvidia-*
sudo apt-get autoremove *

第三步、重新安装驱动

这里采取官方推荐的ppa安装方式,仅需要命令行操作。

1、查看本机支持的驱动版本

比如之前安装的是535版本,现在依旧选择 nvidia-driver-535-server

ubuntu-drivers devices

在这里插入图片描述

2、添加官方 PPA 仓库并更新

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update

3、安装535版本的驱动

sudo apt install nvidia-utils-535-server
sudo apt install nvidia-driver-535-server

4、重启

sudo reboot

第四步、检验是否成功

执行命令 nvidia-smi 可以正常运行,并且显卡驱动版本也更新到535.247.01。
在这里插入图片描述

检查下新驱动版本:

dpkg --list | grep nvidia-*

和内核版本是否一致:

cat /proc/driver/nvidia/version

可以看到这次版本一致了。

在这里插入图片描述

第五步、禁用驱动自动更新

为了防止下次服务器自动更新驱动版本,需要禁用当前版本的自动更新

sudo apt-mark hold nvidia-driver-535-server

日后如果需要取消禁用,首先查看下当前被锁定的包:

sudo apt-mark showhold | grep nvidia

如果只取消某个具体包的锁定(例如 nvidia-driver-535):

sudo apt-mark unhold nvidia-driver-535

如果需要取消所有 NVIDIA 相关包的锁定:

sudo apt-mark unhold $(apt-mark showhold | grep nvidia)

参考资料

  • deepseek
  • https://zhuanlan.zhihu.com/p/659149736
  • https://blog.csdn.net/a772304419/article/details/146601092

相关文章:

  • 2025FIC初赛(手机)
  • 【实战教程】零基础搭建DeepSeek大模型聊天系统 - Spring Boot+React完整开发指南
  • 阿里云平台与STM32的物联网设计
  • 大模型Prompt工程2.0:多Prompt协同完全指南——从原理到实战,高效解锁AI深层潜力
  • 什么是回调 钩子 Hook机制 钩子函数 异步编程
  • shell脚本实现远程重启多个服务器
  • 代码随想录算法训练营第三十四天
  • 数据库补充知识
  • 【Redis】哨兵机制和集群
  • k8s 中 deployment 管理的多个 pod 构成集群吗
  • 技术视界|青龙机器人训练地形详解(二):添加地形到训练环境
  • Flutter TabBar / TabBarView 详解
  • 办公学习 效率提升 超级PDF处理软件 转换批量 本地处理
  • 重新定义高性能:Hyperlane —— Rust生态中的极速HTTP服务器
  • QMK键盘固件配置详解
  • Azure OpenAI 聊天功能全解析:Java 开发者指南
  • uniapp 震动功能实现
  • AKS 网络深入探究:Kubenet、Azure-CNI 和 Azure-CNI(overlay)
  • 2025年渗透测试面试题总结-网络安全、Web安全、渗透测试笔试总结(一)(附回答)(题目+回答)
  • 【卡特兰数】不同的二叉搜索树
  • 欧盟决意与俄罗斯能源彻底决裂之际,美国谋划新生意:进口俄气对欧转售
  • 安徽亳州涡阳县司法局党组书记刘兴连落马
  • 王受文已任全国工商联党组成员
  • 梵蒂冈选出新教皇,外交部:望新教皇推动中梵关系不断改善
  • “爱鸟周”为何不能像FI和花展那样“市区联动”
  • 晶圆销量上升,中芯国际一季度营收增长近三成,净利增超1.6倍