Dell PowerEdge R620 服务器内存和硬盘罢工了
文章目录
- 前言
- 调查原因
- 查找解决方案
- 硬盘问题
- 内存问题
- 总结
前言
月黑风高夜,服务宕机时。做服务端技术的,谁还没半夜遇到个服务挂掉的情况,而像我这种半兼职网管的工作,遇到机器问题的概率也就更大了,本来周五晚上写完总结准备撤离了,照例去我们那简易的“机房”转一圈,橙色的指示灯光芒闪的我有些睁不开眼,我知道这意味着我一时半会走不了了,又来活了。
调查原因
Dell PowerEdge R620
这款服务器,那个显示屏虽然小点,但是好在能展现出错误信息,本来我想着录个视频,到工位上慢慢分析的,但是无奈亮度对比对太强,录的视频一片亮光,无法正常看出错误文字,我只得在手机上将看到的文本记录下来,记性不太好,不得不从头多看一遍,内容如下:
MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.
在回工位的路上,瞄了一眼旁边的服务器,好家伙,又一台闪着橙色光芒的,真是“祸不单行”啊,要知道这些机器从我去年安装好还没出过问题,今天第一次出问题还一次就出现两台,真是难以置信,还是一个一个字母的记录了另一台机器的报错信息:
PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.
毕竟不是专业的,作为一个半吊子网管,初步判断为内存问题和硬盘问题。
查找解决方案
这时候还是把ChatGPT请出来,当然Deepseek和豆包也都要发表一下对这些问题的看法,经过分析得出的结论就是内存和硬盘坏了,无法与主板正常连通提供服务,最可能得原因是插口松动了,关于内存我还不太担心,那台机器有8个条子,大不了把这个坏的取下来,剩余的也能接着用;不过硬盘这个比较棘手,毕竟里面有数据,搞不好我又得花时间同步、搭建、还原等等,所以先来看看硬盘问题。
硬盘问题
PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.
- PDR1001: 这是戴尔服务器关于物理磁盘(Physical Disk)的特定错误代码。
- Fault detected on drive 0 in disk drive by bay 1: 这表示服务器在 1号硬盘托架(bay 1) 中的 第0号硬盘(drive 0) 上检测到了故障。
- Check drive: 系统给出的建议是:检查该硬盘。
我首先通过戴尔的远程管理卡(iDRAC)在网页上查看了硬盘信息,这台机器的硬盘配置了RAID5(Redundant Array of Independent Disks, Level 5; 独立磁盘冗余阵列,第5级),一共由4块600G硬盘组成,其中一块是热备盘,另外3块构成了RAID5,原来的硬盘状态是0,1,2联机状态,3是就绪状态。这次再打开,显示1,2,3联机状态,0失败状态,也就是第一块盘读不到了。
因为之前就配置了RAID5,所以现在数据时完整的,热备盘3已经替换了原来的0号盘组成新的阵列,数据不受影响,这款硬件卡支持热插拔,通常的做法是买一块新的硬盘把0号盘换下来就行了,我查了下价格还挺贵,600G原装硬盘要1400块,所以我还是司马当活马医,测试下是不是插口松了。
PowerEdge R620 的硬盘比较好拆,点击硬盘上的按钮,弹出一个把手,一拽就出来了,因为故障的时间比较长了,我推测新的RAID5数据已经构建完成,所以我把擦拭好的硬盘又插了回去。
戴尔的远程管理卡(iDRAC)在网页上上的日志显示 “Copyback started from Disk 3 on Integrated RAID Controller 1 to Disk 0 on Integrated RAID Controller 1.”,表明戴尔的PERC控制器做出了一种最智能、最安全的响应。控制器自动将当前RAID成员(Disk 3)上的所有数据,完整地复制回现在物理状态良好的原盘(Disk 0) 上,当回拷完成后,Disk 0会重新成为RAID 5的正式成员,而Disk 3会自动解除成员身份,变回全局热备盘的状态,这是一个全自动的、完美的自我修复过程。
大约过了一个小时,日志显示:
The physical disk drive Disk 3 in Backplane 1 ofIntegrated RAlD Controller 1 is assigned as a dedicated hot-spare.
这是一个非常理想的结局。 它证明了您最初“3盘RAID 5 + 1热备”的配置是正确的,并且控制器的功能非常完善。
以后如果再次遇到硬盘故障报警(通过iDRAC邮件或管理界面),请先确认是哪块盘,然后如果怀疑是连接问题,最安全的方法是先正常关机(Shutdown),再检查线缆,最后开机。热插拔操作应保留给确认已故障的磁盘的更换。
切不可在Raid5一块硬盘掉线后,在数据没有重新构建完就尝试再插回去,如果确认硬盘坏了就买块新盘换上,如果买了一块二手盘,多数不能自动恢复,需要关机替换掉硬盘后,删除新购二手盘Raid信息才行。
内存问题
MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.
- MEM0702: 这是戴尔服务器的特定错误代码,指内存可纠正错误。
- Correctable memory error rate exceeded for DIMM_B2: 这表示服务器主板上的B2内存插槽中的内存条,发生了超过阈值数量的可纠正错误(CE)。
- Reseat memory: 这是系统给出的初步建议:重新插拔内存。
首先通过戴尔的远程管理卡(iDRAC)在网页上查看城内存信息,标记为DIMM B2的DDR3内存条状态栏写着,“已达可校正的内存错误日志上限”,重新插拔内存,这是错误信息直接建议的操作,有时可能只是因为金手指氧化接触不良,所以我决定试一试,执行 shutdown -h now
关机,然后打开服务器顶盖检查。
定位DIMM_B2:找到主板上的内存插槽。每个插槽旁边都有清晰的标签,如 A1, A2, B1, B2, C1, C2…。找到标有 B2 的插槽。
取出内存:按下插槽两端的卡扣,内存条会自动弹起,然后垂直将其拔出。
清洁金手指:使用一块干净的无绒布(如眼镜布),或专用的电子元件清洁剂,轻轻擦拭内存条金色的接触部分(金手指),不要用手直接触摸金手指,我是没找到眼镜布,就用面巾纸擦了擦。
重新插入:将内存条对准插槽(注意防呆口),用均匀的力垂直向下按压,直到两端的卡扣自动扣回并发出“咔哒”声。确保内存条已完全插入且没有歪斜。
重启服务器后,发现内存信息已经恢复正常,本来这活在常见的PC机上很普通,但是放到服务器上再亮哥橙色的警告灯,让人很紧张。
总结
Dell PowerEdge R620
这款服务器,顶盖上有个黑色的把手,扣开滑动即可,硬盘盒前面有个按钮,按下可弹出拖拽硬盘的把手MEM0702
是戴尔服务器的特定错误代码,指内存可纠正错误,建议重新插拔内存PDR1001
是戴尔服务器关于物理磁盘(Physical Disk)的特定错误代码,需检查硬盘,必要时替换出问题的硬盘,支持热插拔
人生总是一个不断交换的过程,拿你自己有的,去换自己想要的,不管这个过程是心甘情愿,还是被逼无奈,日子总要进行的。放大来看,又何止是人生啊,猫生、树生,万物生,哪些又是自己能完全掌控的呢?最近坍缩的方向过于明显了,就必须反着来吗?