第六篇: `dmesg` `lspci` - 硬件层面的“黑匣子”与“雷达”
第六篇: dmesg
& lspci
- 硬件层面的“黑匣子”与“雷达”
核心目标
学会使用lspci
和dmesg
这两个Linux原生命令,从最底层的PCI总线和内核日志层面,去侦测和诊断那些nvidia-smi
无法解释的“疑难杂症”。
使用场景
当你遇到以下情况时,nvidia-smi
可能会失灵或无法提供足够信息,这时就轮到lspci
和dmesg
登场了:
- GPU“消失”:
nvidia-smi
显示的GPU数量少于服务器实际安装的数量。 - 驱动加载失败:
nvidia-smi
返回couldn't communicate with the NVIDIA driver
的经典错误。 - 任务莫名崩溃:应用日志只报一个通用的CUDA错误,但
nvidia-smi
看起来一切正常,你需要寻找更深层次的原因。
我们将这两个命令比作飞机的“雷达”和“黑匣子”。
一、lspci
- 硬件“雷达”:GPU是否存在?
在排查任何驱动问题之前,我们必须先回答一个最基本的问题:操作系统内核,到底有没有在PCIe总线上“看”到这块物理硬件?lspci
(List PCI)就是回答这个问题的权威工具。