GPU状态监控
GPU 状态监控
对比:
| GPU | 项目名称 | 项目名称 |
|---|---|---|
| 单机多 GPU | GPU状态监控 | 以时间为横轴展示GPU被占用的动态过程,但不显示具体时间 |
| 单机多 GPU | GPU 实时监控服务 | 多卡GPU统一展示,数据简洁清晰 |
| 多机多 GPU | 服务器集群监控面板 | 可以同时监控多个服务器上的GPU |
一、GPU状态监控 gpu-monitor
1、代码地址:https://github.com/haowang02/gpu-monitor?tab=readme-ov-file
2、快速搭建:
| 步骤 | 操作 |
|---|---|
| 克隆仓库 | git clone https://github.com/haowang02/gpu-monitor.git |
| 创建虚拟环境并安装依赖 | cd gpu-monitor python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt |
| 启动服务 | gunicorn gm:app |
| 浏览器访问 | http://localhost:8888/index.html |
3、浏览器监控页面
- 状态监控可看见:显存占用、显卡占用、显卡温度、显卡功耗


- 进程监控,可以看见进程详细信息

二、GPU 实时监控服务
1、代码地址:https://github.com/hczs/gpu-monitor?tab=readme-ov-file
2、快速搭建:
| 步骤 | 操作 |
|---|---|
| 克隆仓库或下载代码 | git clone https://github.com/hczs/gpu-monitor?tab=readme-ov-file |
| 创建并激活虚拟环境 | python -m venv venv source venv/bin/activate cd gpu-monitor/api |
| 安装依赖 | pip install -r requirements.txt |
| 运行服务器 | sh start.sh |
| 浏览器监控页面 | http://localhost:9999 |
3、浏览器页面展示

三、服务器集群监控面板server-monitor-panel
1、代码地址:https://github.com/zibingo/server-monitor-panel/tree/main
2、快速搭建:
| 步骤 | 操作 |
|---|---|
| 克隆仓库或下载代码 | git clone https://github.com/zibingo/server-monitor-panel.git |
| 创建并激活虚拟环境 | python -m venv venv source venv/bin/activate |
| 安装依赖 | pip install -r requirements.txt |
| 运行服务器 | python app.py |
| 浏览器监控页面 | http://localhost:60000 |
4、部署多服务器监控
修改app.py中的node_list添加服务器信息,并运行:
node_list = [{'id': 1, 'name': '服务器A', 'ip': '192.168.1.100', 'port': 60000},# 添加更多服务器...]
5、浏览器页面展示

