GPU状态监控
GPU 状态监控
对比:
GPU | 项目名称 | 项目名称 |
---|---|---|
单机多 GPU | GPU状态监控 | 以时间为横轴展示GPU被占用的动态过程,但不显示具体时间 |
单机多 GPU | GPU 实时监控服务 | 多卡GPU统一展示,数据简洁清晰 |
多机多 GPU | 服务器集群监控面板 | 可以同时监控多个服务器上的GPU |
一、GPU状态监控 gpu-monitor
1、代码地址:https://github.com/haowang02/gpu-monitor?tab=readme-ov-file
2、快速搭建:
步骤 | 操作 |
---|---|
克隆仓库 | git clone https://github.com/haowang02/gpu-monitor.git |
创建虚拟环境并安装依赖 | cd gpu-monitor python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt |
启动服务 | gunicorn gm:app |
浏览器访问 | http://localhost:8888/index.html |
3、浏览器监控页面
- 状态监控可看见:显存占用、显卡占用、显卡温度、显卡功耗
- 进程监控,可以看见进程详细信息
二、GPU 实时监控服务
1、代码地址:https://github.com/hczs/gpu-monitor?tab=readme-ov-file
2、快速搭建:
步骤 | 操作 |
---|---|
克隆仓库或下载代码 | git clone https://github.com/hczs/gpu-monitor?tab=readme-ov-file |
创建并激活虚拟环境 | python -m venv venv source venv/bin/activate cd gpu-monitor/api |
安装依赖 | pip install -r requirements.txt |
运行服务器 | sh start.sh |
浏览器监控页面 | http://localhost:9999 |
3、浏览器页面展示
三、服务器集群监控面板server-monitor-panel
1、代码地址:https://github.com/zibingo/server-monitor-panel/tree/main
2、快速搭建:
步骤 | 操作 |
---|---|
克隆仓库或下载代码 | git clone https://github.com/zibingo/server-monitor-panel.git |
创建并激活虚拟环境 | python -m venv venv source venv/bin/activate |
安装依赖 | pip install -r requirements.txt |
运行服务器 | python app.py |
浏览器监控页面 | http://localhost:60000 |
4、部署多服务器监控
修改app.py中的node_list添加服务器信息,并运行:
node_list = [{'id': 1, 'name': '服务器A', 'ip': '192.168.1.100', 'port': 60000},# 添加更多服务器...]
5、浏览器页面展示