当前位置：首页 > news >正文

Dell PowerEdge R620 服务器内存和硬盘罢工了

news 2025/9/17 7:12:54

文章目录

前言
调查原因
查找解决方案
- 硬盘问题
- 内存问题
总结

前言

月黑风高夜，服务宕机时。做服务端技术的，谁还没半夜遇到个服务挂掉的情况，而像我这种半兼职网管的工作，遇到机器问题的概率也就更大了，本来周五晚上写完总结准备撤离了，照例去我们那简易的“机房”转一圈，橙色的指示灯光芒闪的我有些睁不开眼，我知道这意味着我一时半会走不了了，又来活了。

调查原因

Dell PowerEdge R620 这款服务器，那个显示屏虽然小点，但是好在能展现出错误信息，本来我想着录个视频，到工位上慢慢分析的，但是无奈亮度对比对太强，录的视频一片亮光，无法正常看出错误文字，我只得在手机上将看到的文本记录下来，记性不太好，不得不从头多看一遍，内容如下：

MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.

在回工位的路上，瞄了一眼旁边的服务器，好家伙，又一台闪着橙色光芒的，真是“祸不单行”啊，要知道这些机器从我去年安装好还没出过问题，今天第一次出问题还一次就出现两台，真是难以置信，还是一个一个字母的记录了另一台机器的报错信息：

PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.

毕竟不是专业的，作为一个半吊子网管，初步判断为内存问题和硬盘问题。

查找解决方案

这时候还是把ChatGPT请出来，当然Deepseek和豆包也都要发表一下对这些问题的看法，经过分析得出的结论就是内存和硬盘坏了，无法与主板正常连通提供服务，最可能得原因是插口松动了，关于内存我还不太担心，那台机器有8个条子，大不了把这个坏的取下来，剩余的也能接着用；不过硬盘这个比较棘手，毕竟里面有数据，搞不好我又得花时间同步、搭建、还原等等，所以先来看看硬盘问题。

硬盘问题

PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.

PDR1001: 这是戴尔服务器关于物理磁盘（Physical Disk）的特定错误代码。
Fault detected on drive 0 in disk drive by bay 1: 这表示服务器在 1号硬盘托架（bay 1） 中的 第0号硬盘（drive 0） 上检测到了故障。
Check drive: 系统给出的建议是：检查该硬盘。

我首先通过戴尔的远程管理卡（iDRAC）在网页上查看了硬盘信息，这台机器的硬盘配置了RAID5（Redundant Array of Independent Disks, Level 5; 独立磁盘冗余阵列，第5级），一共由4块600G硬盘组成，其中一块是热备盘，另外3块构成了RAID5，原来的硬盘状态是0,1,2联机状态，3是就绪状态。这次再打开，显示1,2,3联机状态，0失败状态，也就是第一块盘读不到了。

因为之前就配置了RAID5，所以现在数据时完整的，热备盘3已经替换了原来的0号盘组成新的阵列，数据不受影响，这款硬件卡支持热插拔，通常的做法是买一块新的硬盘把0号盘换下来就行了，我查了下价格还挺贵，600G原装硬盘要1400块，所以我还是司马当活马医，测试下是不是插口松了。

PowerEdge R620 的硬盘比较好拆，点击硬盘上的按钮，弹出一个把手，一拽就出来了，因为故障的时间比较长了，我推测新的RAID5数据已经构建完成，所以我把擦拭好的硬盘又插了回去。

戴尔的远程管理卡（iDRAC）在网页上上的日志显示 “Copyback started from Disk 3 on Integrated RAID Controller 1 to Disk 0 on Integrated RAID Controller 1.”，表明戴尔的PERC控制器做出了一种最智能、最安全的响应。控制器自动将当前RAID成员（Disk 3）上的所有数据，完整地复制回现在物理状态良好的原盘（Disk 0）上，当回拷完成后，Disk 0会重新成为RAID 5的正式成员，而Disk 3会自动解除成员身份，变回全局热备盘的状态，这是一个全自动的、完美的自我修复过程。

大约过了一个小时，日志显示：

The physical disk drive Disk 3 in Backplane 1 ofIntegrated RAlD Controller 1 is assigned as a dedicated hot-spare.

这是一个非常理想的结局。它证明了您最初“3盘RAID 5 + 1热备”的配置是正确的，并且控制器的功能非常完善。

以后如果再次遇到硬盘故障报警（通过iDRAC邮件或管理界面），请先确认是哪块盘，然后如果怀疑是连接问题，最安全的方法是先正常关机（Shutdown），再检查线缆，最后开机。热插拔操作应保留给确认已故障的磁盘的更换。

切不可在Raid5一块硬盘掉线后，在数据没有重新构建完就尝试再插回去，如果确认硬盘坏了就买块新盘换上，如果买了一块二手盘，多数不能自动恢复，需要关机替换掉硬盘后，删除新购二手盘Raid信息才行。

内存问题

MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.

MEM0702: 这是戴尔服务器的特定错误代码，指内存可纠正错误。
Correctable memory error rate exceeded for DIMM_B2: 这表示服务器主板上的B2内存插槽中的内存条，发生了超过阈值数量的可纠正错误（CE）。
Reseat memory: 这是系统给出的初步建议：重新插拔内存。

首先通过戴尔的远程管理卡（iDRAC）在网页上查看城内存信息，标记为DIMM B2的DDR3内存条状态栏写着，“已达可校正的内存错误日志上限”，重新插拔内存，这是错误信息直接建议的操作，有时可能只是因为金手指氧化接触不良，所以我决定试一试，执行 shutdown -h now 关机，然后打开服务器顶盖检查。

定位DIMM_B2：找到主板上的内存插槽。每个插槽旁边都有清晰的标签，如 A1, A2, B1, B2, C1, C2…。找到标有 B2 的插槽。

取出内存：按下插槽两端的卡扣，内存条会自动弹起，然后垂直将其拔出。

清洁金手指：使用一块干净的无绒布（如眼镜布），或专用的电子元件清洁剂，轻轻擦拭内存条金色的接触部分（金手指），不要用手直接触摸金手指，我是没找到眼镜布，就用面巾纸擦了擦。

重新插入：将内存条对准插槽（注意防呆口），用均匀的力垂直向下按压，直到两端的卡扣自动扣回并发出“咔哒”声。确保内存条已完全插入且没有歪斜。

重启服务器后，发现内存信息已经恢复正常，本来这活在常见的PC机上很普通，但是放到服务器上再亮哥橙色的警告灯，让人很紧张。