【DCGMI专题2】---DCGMI 常用命令详解与生产实例分析
目录
1. 监控类命令
1.1 dcgmi dmon:实时监控 GPU 指标
1.2 dcgmi stats:获取 GPU 统计信息
2. 健康检查类命令
2.1 dcgmi health:检查 GPU 健康状态
2.2 dcgmi diag:运行 GPU 诊断程序
3. 配置管理类命令
3.1 dcgmi config:设置 GPU 配置参数
3.2 dcgmi mig:管理 MIG(Multi - Instance GPU)资源
4. 统计类命令
4.1 dcgmi nvlink:统计 NVLink 带宽信息
1. 监控类命令
1.1 dcgmi dmon
:实时监控 GPU 指标
详细使用:
- 基本格式:
dcgmi dmon [选项]
- 常用选项说明:
-i <gpu_index>
:明确指定要监控的 GPU 索引,从 0 开始计数,0 代表第一块 GPU。比如在多 GPU 服务器中,若只想监控第二块 GPU,就使用-i 1
。-e <