AI服务器工作之电源测试
hello,大家好,今天是1024程序员节。最近开启的专栏关于AI服务器工作的可能要停更一些时间,可能只是短短一个周末,在整个过程中,我很热爱我的工作,可能是由于对未知的探索,也可能是所谓的热爱。希望大家都可以工作顺利,记录我的工作日常。
四个电源
cpu加压
启动 4 个进程消耗 CPU 资源

可以使用top命令查看进程资源占用情况

GPU加压


内存满负载


风扇全速
系统下CPU温度:
CPU tcase: 87℃
CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

系统下电源识别正常:


系统日志未出现报错信息,表示电源正常
拔掉槽位1电源
CPU、硬盘满负载,风扇全速
系统下CPU温度:
CPU tcase: 87℃
CPU 1:64℃ CPU 2:65℃

Ipmi下电源输出情况:

0*9表示不在位
拔掉电源线,模块还在位时

表示无输出和输出电压
拔掉插槽1电源模块后
BMC下不显示,失去电源信息

系统日志未出现报错信息,表示电源正常
拔掉槽位2电源
CPU、硬盘满负载,风扇全速
系统下CPU温度:
CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽2电源模块后
BMC下不显示,失去电源信息

系统日志未出现报错信息,表示电源正常
拔掉槽位3电源
CPU、硬盘满负载,风扇全速
系统下CPU温度:
CPU 1:64℃ CPU 2:64℃
CPU、硬盘满负载,风扇全速
系统下CPU温度:
CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽3源模块后
BMC下不显示,失去电源信息

系统日志未出现报错信息,表示电源正常
拔掉槽位4电源
CPU、硬盘满负载,风扇全速
系统下CPU温度:
CPU 1:64℃ CPU 2:64℃

Ipmi下电源输出情况:

拔掉电源线,模块还在位时

拔掉插槽4模块后
BMC下不显示,失去电源信息

系统日志未出现报错信息,表示电源正常
多次插拔电源
插拔电源模块10次,负载下电源功率输出正常,日志统计正常。

