当前位置: 首页 > news >正文

查看Linux服务器显卡使用情况的详细教程

文章目录

  • 查看Linux服务器显卡使用情况的详细教程
    • 1. 简介
    • 2. 常用命令和工具
      • 2.1 使用 `lspci` 查看显卡硬件信息
      • 2.2 使用 `nvidia-smi` 查看NVIDIA显卡使用情况
      • 2.3 使用 `lshw` 查看详细硬件信息
      • 2.4 使用 `dmidecode` 查看BIOS硬件信息
      • 2.5 使用 `hwinfo` 查看全面硬件信息
      • 2.6 检查 `/proc` 或 `/sys` 文件系统
    • 3. 推荐使用流程
    • 4. 注意事项
    • 5. 常见问题解答
    • 6. 总结

查看Linux服务器显卡使用情况的详细教程

1. 简介

在Linux服务器上,显卡(GPU)信息和使用情况的查看通常涉及硬件检测、驱动状态和实时监控。以下方法适用于大多数Linux发行版(如Ubuntu、CentOS、Debian等),并针对不同场景(如NVIDIA显卡、AMD显卡或集成显卡)提供解决方案。

2. 常用命令和工具

以下是用于查看显卡信息和使用情况的主要命令和工具,按使用频率和易用性排序。

2.1 使用 lspci 查看显卡硬件信息

  • 命令

    lspci | grep -i vga
    

    lspci | grep -i nvidia
    
  • 用途:列出PCI设备中与显卡相关的信息。

  • 安装(如未预装):

    sudo apt install pciutils  # Debian/Ubuntu
    sudo yum install pciutils  # CentOS/RHEL
    
  • 输出示例

    01:00.0 VGA compatible controller: NVIDIA Corporation TU104 [GeForce RTX 2080] (rev a1)
    
  • 解析

    • 01:00.0:PCI总线地址。
    • VGA compatible controller:表示显卡设备。
    • NVIDIA Corporation TU104 [GeForce RTX 2080]:显卡品牌和型号。
  • 适用场景:快速检查显卡型号,适用于所有类型的显卡(NVIDIA、AMD、Intel等)。

2.2 使用 nvidia-smi 查看NVIDIA显卡使用情况

  • 命令

    nvidia-smi
    
  • 用途:显示NVIDIA显卡的实时使用情况,包括GPU利用率、内存使用、运行进程等。

  • 前提:需要安装NVIDIA驱动。

  • 安装驱动(以Ubuntu为例):

    sudo apt update
    sudo apt install nvidia-driver-<version> nvidia-utils-<version>
    

    (将<version>替换为适合的驱动版本,如535。可通过ubuntu-drivers devices查看推荐版本。)

  • 输出示例

    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 535.104.05   Driver Version: 535.104.05   CUDA Version: 12.2     |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |===============================+======================+======================|
    |   0  Tesla V100-SXM2...  Off  | 00000000:00:1E.0 Off |                    0 |
    | N/A   34C    P0    38W / 300W |      0MiB / 16160MiB |      0%      Default |
    +-------------------------------+----------------------+----------------------+
    
  • 解析

    • GPU Name:显卡型号(如Tesla V100)。
    • Memory-Usage:显存使用情况(如0MiB / 16160MiB)。
    • GPU-Util:GPU利用率(如0%表示空闲)。
  • 适用场景:监控NVIDIA显卡的实时性能,适合机器学习、计算任务等场景。

2.3 使用 lshw 查看详细硬件信息

  • 命令

    sudo lshw -C display
    
  • 用途:提供显卡的详细硬件信息,包括型号、驱动、时钟频率等。

  • 安装

    sudo apt install lshw  # Debian/Ubuntu
    sudo yum install lshw  # CentOS/RHEL
    
  • 输出示例

    *-displaydescription: VGA compatible controllerproduct: TU104 [GeForce RTX 2080]vendor: NVIDIA Corporationphysical id: 0bus info: pci@0000:01:00.0version: a1width: 64 bitsclock: 33MHz
    
  • 解析

    • description:设备类型(VGA兼容控制器)。
    • productvendor:显卡型号和制造商。
  • 适用场景:需要详细硬件规格时使用,需root权限。

2.4 使用 dmidecode 查看BIOS硬件信息

  • 命令

    sudo dmidecode | grep -i vga
    
  • 用途:从BIOS获取显卡相关信息。

  • 安装

    sudo apt install dmidecode  # Debian/Ubuntu
    sudo yum install dmidecode  # CentOS/RHEL
    
  • 输出示例:(可能因系统而异)

    VGA compatible controller
    
  • 适用场景:当其他工具无法获取信息时,检查BIOS数据。

2.5 使用 hwinfo 查看全面硬件信息

  • 命令

    hwinfo --gfxcard
    
  • 用途:提供显卡的详细硬件信息。

  • 安装

    sudo apt install hwinfo  # Debian/Ubuntu
    sudo yum install hwinfo  # CentOS/RHEL
    
  • 输出示例

    01: PCI 100.0: 0300 VGA compatible controllerModel: "NVIDIA TU104 [GeForce RTX 2080]"Vendor: nvidiaDevice: TU104Driver: nvidia
    
  • 适用场景:需要全面硬件信息时使用。

2.6 检查 /proc/sys 文件系统

  • 命令

    cat /proc/driver/nvidia/gpus/*/information
    
  • 用途:直接从NVIDIA驱动获取显卡信息。

  • 输出示例

    Model:           GeForce RTX 2080
    IRQ:             16
    GPU UUID:        GPU-12345678-1234-1234-1234-1234567890ab
    
  • 适用场景:已安装NVIDIA驱动的系统,适合脚本化查询。

3. 推荐使用流程

  1. 检查显卡型号
    • 执行 lspci | grep -i vgalspci | grep -i nvidia 确认显卡硬件。
  2. 监控NVIDIA显卡使用情况
    • 如果是NVIDIA显卡且已安装驱动,运行 nvidia-smi 查看实时使用情况。
  3. 获取详细硬件信息
    • 使用 lshw -C displayhwinfo --gfxcard 获取更详细的硬件规格。
  4. 备用方法
    • 如果上述命令无输出,尝试 dmidecode/proc 文件系统检查。

4. 注意事项

  • 驱动安装nvidia-smi 需要NVIDIA驱动支持。未安装驱动的服务器可能只能获取基本硬件信息。

  • 权限问题lshwdmidecode 通常需要root权限,使用 sudo 执行。

  • 无图形界面:服务器通常不安装图形界面,可能只有集成显卡或无显卡输出。

  • 工具安装:确保安装所需工具(如 pciutilslshwhwinfo)。

  • 实时监控:使用 watch 命令循环运行 nvidia-smi

    watch -n 1 nvidia-smi
    

    (每秒刷新一次输出)

5. 常见问题解答

  • Q:lspci 没有输出显卡信息怎么办?
    • A:确认 pciutils 已安装,或检查服务器是否无独立物理显卡。
  • Q:nvidia-smi 提示命令不存在?
    • A:说明未安装NVIDIA驱动,需先安装驱动或使用其他工具(如 lspci)。
  • Q:如何确认驱动版本?
    • A:运行 nvidia-smicat /proc/driver/nvidia/version 查看驱动版本。

6. 总结

​ 通过以上命令和工具,您可以快速查看Linux服务器的显卡信息和使用情况。推荐优先使用 lspci | grep -i vga 检查硬件,结合 nvidia-smi 监控NVIDIA显卡的实时性能。如果需要更详细的信息,lshwhwinfo 是理想选择。

http://www.dtcms.com/a/277491.html

相关文章:

  • win11添加无线显示器(两个笔记本实现双屏)
  • 昇腾FAQ-A08-工具链相关
  • 小架构step系列13:测试用例的加载
  • 线性代数学习笔记
  • 求解线性规划模型最优解
  • Java行为型模式---观察者模式
  • AI基础设施展望
  • 《Mirage:首款基于实时世界模型的AI原生UGC游戏引擎,开启“边玩边生成”的游戏新时代》
  • Python实现小红书悬停框效果详解
  • 极矢量与轴矢量
  • 框架和库的区别
  • MCP4725 数据手册解读
  • 通信子网 V
  • cuda编程笔记(7)--多GPU上的CUDA
  • 黑马点评系类问题p63中ClassPathResource报错
  • Claude Code AI 编程指南
  • 在 Flow 取消时自动清理资源
  • 构建可落地的企业AI Agent,背后隐藏着怎样的技术密码?
  • vue是什么
  • 【读书笔记】《Effective Modern C++》第二章:auto
  • 改进后的 OpenCV 5.x + GStreamer + Python 3.12 编译流程(适用于 Orange Pi / ARM64)
  • 正则化-机器学习
  • Redis面试精讲 Day 2:Redis数据类型全解析
  • 内存管理概念
  • Docker安装Nginx
  • Web:JS的三种引用方式
  • 《每日AI-人工智能-编程日报》--2025年7月12日
  • Windows 常用命令
  • 网络编程 JAVA
  • 视觉语言导航与目标导航