当前位置: 首页 > news >正文

常见的 DCGM 设备级别指标及其含义

前言

在大规模 GPU 集群运维与性能调优中,精准、全面地了解每块显卡的运行状态和健康状况至关重要。NVIDIA 数据中心 GPU 管理 (DCGM) 提供了一系列关键指标,用于监控显存错误、硬件利用率、温度、能耗以及互联带宽等多维度信息。通过对这些指标的持续采集与分析,运维人员可以:

  • 及时发现与定位 ECC 内存错误与硬件故障,保障系统稳定性;
  • 量化计算与传输负载,优化任务调度与资源分配;
  • 监控温度与能耗,平衡性能与功耗,延长设备寿命;
  • 洞察互联带宽与链路质量,提升多 GPU 协同效率;
  • 跟踪虚拟化授权与驱动错误,确保虚拟化环境与驱动可靠性。

下表详细列出了常见的 DCGM 设备级别指标及其含义,供集群部署、监控与故障排查时参考。
在这里插入图片描述

指标名含义
CORRECTABLE_REMAPPED_ROWS可纠正 ECC(单比特)错误所在的内存行,被硬件检测后重映射到备用行的次数。
UNCORRECTABLE_REMAPPED_ROWS不可纠正 ECC(多比特)错误所在的内存行,被硬件检测后重映射到备用行的次数。
ROW_REMAP_FAILURE硬件尝试重映射有 ECC 错误的内存行失败的次数。
DEC_UTIL硬件视频解码器(NVDEC)的利用率百分比。
ENC_UTIL硬件视频编码器(NVENC)的利用率百分比。
FB_FREEGPU 帧缓冲区中尚未使用的显存容量。
FB_USEDGPU 帧缓冲区中已被占用的显存容量。
GPU_TEMPGPU 核心温度(℃)。
MEMORY_TEMP显存(VRAM)温度(℃)。
GPU_UTILGPU SM 核的利用率百分比。
MEM_COPY_UTIL内存拷贝引擎(DMA engine)的利用率百分比。
MEM_CLOCKGPU 全局内存控制器的时钟频率(MHz)。
SM_CLOCKGPU SM 核心的运行时钟频率(MHz)。
NVLINK_BANDWIDTH_TOTAL所有 NVLink 通道合计的带宽利用率(GB/s)。
PCIE_REPLAY_COUNTERPCIe 链路重传(Replay)事件计数。
POWER_USAGE当前功耗(W)。
TOTAL_ENERGY_CONSUMPTION自部署以来累计的总能量消耗(J)。
VGPU_LICENSE_STATUSvGPU 许可证状态(1=有效,0=无效)。
XID_ERRORS驱动报告的 XID 错误计数,反映严重硬件或驱动故障。

Ref

  1. 监控指标说明

相关文章:

  • 一个网球新手的学习心得
  • 【C语言文件操作详解】fopen 函数全解析 —— 模式参数、使用技巧与重定向的区别
  • 运动员技术等级分为国际级运动健将
  • C——猜数字游戏
  • RuoYi-v4.7.8 jar/war部署
  • n8n中订阅MQTT数据
  • 什么是硬件中断请求号?什么是中断向量号?
  • C++语法基础(上)
  • 基于单片机的电子法频率计
  • .Net HttpClient 处理响应数据
  • BGP实验练习1
  • 基于Docker的Bitwarden的私有本地部署
  • 在 Windows 系统上选择与部署 DICOM 医学影像开发工具与库
  • 【计算机视觉】基于深度学习的实时情绪检测系统:emotion-detection项目深度解析
  • C语言文件读写函数详解与示例(fread、fgets、fgetc、fscanf、fwrite、fputs 和 fputc比较)
  • Java学习手册:服务注册与发现
  • Mask-aware Pixel-Shuffle Down-Sampling (MPD) 下采样
  • Java对象的内存分布(二)
  • 数组的常用方法
  • TikTok 互动运营干货:AI 助力提升粘性
  • 马上评丨75万采购300元设备,仅仅终止采购还不够
  • 北美票房|昔日偶像风光不再,乔什·哈内特新片开画不佳
  • 社恐也能嗨起来,《孤独摇滚》千人观影齐舞荧光棒
  • 快评|印巴为何停火?已达成“一场胜利,各自表述”的效果
  • 广西百色通报:极端强对流天气致墙体倒塌,3人遇难7人受伤
  • 比特币价格重返10万美元,哪些因素使然?