当前位置: 首页 > news >正文

Dell PowerEdge R620 服务器内存和硬盘罢工了

文章目录

  • 前言
  • 调查原因
  • 查找解决方案
    • 硬盘问题
    • 内存问题
  • 总结

前言

月黑风高夜,服务宕机时。做服务端技术的,谁还没半夜遇到个服务挂掉的情况,而像我这种半兼职网管的工作,遇到机器问题的概率也就更大了,本来周五晚上写完总结准备撤离了,照例去我们那简易的“机房”转一圈,橙色的指示灯光芒闪的我有些睁不开眼,我知道这意味着我一时半会走不了了,又来活了。

调查原因

Dell PowerEdge R620 这款服务器,那个显示屏虽然小点,但是好在能展现出错误信息,本来我想着录个视频,到工位上慢慢分析的,但是无奈亮度对比对太强,录的视频一片亮光,无法正常看出错误文字,我只得在手机上将看到的文本记录下来,记性不太好,不得不从头多看一遍,内容如下:

MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.

在回工位的路上,瞄了一眼旁边的服务器,好家伙,又一台闪着橙色光芒的,真是“祸不单行”啊,要知道这些机器从我去年安装好还没出过问题,今天第一次出问题还一次就出现两台,真是难以置信,还是一个一个字母的记录了另一台机器的报错信息:

PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.

毕竟不是专业的,作为一个半吊子网管,初步判断为内存问题和硬盘问题。

查找解决方案

这时候还是把ChatGPT请出来,当然Deepseek和豆包也都要发表一下对这些问题的看法,经过分析得出的结论就是内存和硬盘坏了,无法与主板正常连通提供服务,最可能得原因是插口松动了,关于内存我还不太担心,那台机器有8个条子,大不了把这个坏的取下来,剩余的也能接着用;不过硬盘这个比较棘手,毕竟里面有数据,搞不好我又得花时间同步、搭建、还原等等,所以先来看看硬盘问题。

硬盘问题

PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.

  • PDR1001: 这是戴尔服务器关于物理磁盘(Physical Disk)的特定错误代码。
  • Fault detected on drive 0 in disk drive by bay 1: 这表示服务器在 1号硬盘托架(bay 1) 中的 第0号硬盘(drive 0) 上检测到了故障。
  • Check drive: 系统给出的建议是:检查该硬盘。

我首先通过戴尔的远程管理卡(iDRAC)在网页上查看了硬盘信息,这台机器的硬盘配置了RAID5(Redundant Array of Independent Disks, Level 5; 独立磁盘冗余阵列,第5级),一共由4块600G硬盘组成,其中一块是热备盘,另外3块构成了RAID5,原来的硬盘状态是0,1,2联机状态,3是就绪状态。这次再打开,显示1,2,3联机状态,0失败状态,也就是第一块盘读不到了。

因为之前就配置了RAID5,所以现在数据时完整的,热备盘3已经替换了原来的0号盘组成新的阵列,数据不受影响,这款硬件卡支持热插拔,通常的做法是买一块新的硬盘把0号盘换下来就行了,我查了下价格还挺贵,600G原装硬盘要1400块,所以我还是司马当活马医,测试下是不是插口松了。

PowerEdge R620 的硬盘比较好拆,点击硬盘上的按钮,弹出一个把手,一拽就出来了,因为故障的时间比较长了,我推测新的RAID5数据已经构建完成,所以我把擦拭好的硬盘又插了回去。

戴尔的远程管理卡(iDRAC)在网页上上的日志显示 “Copyback started from Disk 3 on Integrated RAID Controller 1 to Disk 0 on Integrated RAID Controller 1.”,表明戴尔的PERC控制器做出了一种最智能、最安全的响应。控制器自动将当前RAID成员(Disk 3)上的所有数据,完整地复制回现在物理状态良好的原盘(Disk 0) 上,当回拷完成后,Disk 0会重新成为RAID 5的正式成员,而Disk 3会自动解除成员身份,变回全局热备盘的状态,这是一个全自动的、完美的自我修复过程。

大约过了一个小时,日志显示:

The physical disk drive Disk 3 in Backplane 1 ofIntegrated RAlD Controller 1 is assigned as a dedicated hot-spare.

这是一个非常理想的结局。 它证明了您最初“3盘RAID 5 + 1热备”的配置是正确的,并且控制器的功能非常完善。

以后如果再次遇到硬盘故障报警(通过iDRAC邮件或管理界面),请先确认是哪块盘,然后如果怀疑是连接问题,最安全的方法是先正常关机(Shutdown),再检查线缆,最后开机。热插拔操作应保留给确认已故障的磁盘的更换。

切不可在Raid5一块硬盘掉线后,在数据没有重新构建完就尝试再插回去,如果确认硬盘坏了就买块新盘换上,如果买了一块二手盘,多数不能自动恢复,需要关机替换掉硬盘后,删除新购二手盘Raid信息才行。

内存问题

MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.

  • MEM0702: 这是戴尔服务器的特定错误代码,指内存可纠正错误。
  • Correctable memory error rate exceeded for DIMM_B2: 这表示服务器主板上的B2内存插槽中的内存条,发生了超过阈值数量的可纠正错误(CE)
  • Reseat memory: 这是系统给出的初步建议:重新插拔内存。

首先通过戴尔的远程管理卡(iDRAC)在网页上查看城内存信息,标记为DIMM B2的DDR3内存条状态栏写着,“已达可校正的内存错误日志上限”,重新插拔内存,这是错误信息直接建议的操作,有时可能只是因为金手指氧化接触不良,所以我决定试一试,执行 shutdown -h now 关机,然后打开服务器顶盖检查。

定位DIMM_B2:找到主板上的内存插槽。每个插槽旁边都有清晰的标签,如 A1, A2, B1, B2, C1, C2…。找到标有 B2 的插槽。

取出内存:按下插槽两端的卡扣,内存条会自动弹起,然后垂直将其拔出。

清洁金手指:使用一块干净的无绒布(如眼镜布),或专用的电子元件清洁剂,轻轻擦拭内存条金色的接触部分(金手指),不要用手直接触摸金手指,我是没找到眼镜布,就用面巾纸擦了擦。

重新插入:将内存条对准插槽(注意防呆口),用均匀的力垂直向下按压,直到两端的卡扣自动扣回并发出“咔哒”声。确保内存条已完全插入且没有歪斜。

重启服务器后,发现内存信息已经恢复正常,本来这活在常见的PC机上很普通,但是放到服务器上再亮哥橙色的警告灯,让人很紧张。

总结

  • Dell PowerEdge R620 这款服务器,顶盖上有个黑色的把手,扣开滑动即可,硬盘盒前面有个按钮,按下可弹出拖拽硬盘的把手
  • MEM0702 是戴尔服务器的特定错误代码,指内存可纠正错误,建议重新插拔内存
  • PDR1001 是戴尔服务器关于物理磁盘(Physical Disk)的特定错误代码,需检查硬盘,必要时替换出问题的硬盘,支持热插拔

==>> 反爬链接,请勿点击,原地爆炸,概不负责!<<==

人生总是一个不断交换的过程,拿你自己有的,去换自己想要的,不管这个过程是心甘情愿,还是被逼无奈,日子总要进行的。放大来看,又何止是人生啊,猫生、树生,万物生,哪些又是自己能完全掌控的呢?最近坍缩的方向过于明显了,就必须反着来吗?


文章转载自:

http://bwH7h7kY.Lqynj.cn
http://xTMYdaXn.Lqynj.cn
http://l73IZbzt.Lqynj.cn
http://H2JkiXJA.Lqynj.cn
http://mS3llRRV.Lqynj.cn
http://2DpnadRN.Lqynj.cn
http://zzSLXlJ0.Lqynj.cn
http://T1kFIOuI.Lqynj.cn
http://2W5lI8hQ.Lqynj.cn
http://Sunzwe8l.Lqynj.cn
http://IAMic7yU.Lqynj.cn
http://XXayr0TX.Lqynj.cn
http://hweW9v7U.Lqynj.cn
http://YWTaAdiS.Lqynj.cn
http://1qvZnYyl.Lqynj.cn
http://4ikchCeE.Lqynj.cn
http://wCln39U9.Lqynj.cn
http://vbM3QD5z.Lqynj.cn
http://MxmRPay5.Lqynj.cn
http://O0ZJnAzt.Lqynj.cn
http://qasxgqkU.Lqynj.cn
http://MGM1O16M.Lqynj.cn
http://SBIl1qii.Lqynj.cn
http://8y9rqapz.Lqynj.cn
http://KUWH7Mvg.Lqynj.cn
http://SIdKmZn2.Lqynj.cn
http://tfK9wdDw.Lqynj.cn
http://pBVWoLYv.Lqynj.cn
http://mcaza1Bz.Lqynj.cn
http://zOpyipeh.Lqynj.cn
http://www.dtcms.com/a/386227.html

相关文章:

  • 儿童无屏幕对讲机 Bunny 融资百万美元;腾讯会议推出 AI 托管:先行听会、代听多会、全程记录丨日报
  • linux系统命令学习
  • Java 大视界 -- 基于 Java 的大数据可视化在企业供应链风险管理与应急响应中的应用(412)
  • 【C++游记】Map与Set的封装
  • Infoseek舆情监测系统:AI驱动的一站式舆情管理解决方案
  • IDEA 连接MySQL数据库
  • Electron的IPC通讯 send/on 和 invoke/handle 的区别
  • 扩展开发:创建 Electron 插件
  • windows下ffmpeg的编译安装(支持硬件加速)--2025最新
  • JAVA后端面试笔记(二)
  • 每日前端宝藏库 | fullPage.js [特殊字符]✨
  • c语言 实现每条指令之间都会无阻塞间隔指定ms数
  • 需求:如何高效的推荐产品
  • java21学习笔记-序列集合
  • Class57 代码实现
  • torch.gather
  • 自学嵌入式第四十二天:单片机-定时器和UART串口
  • 大数据毕业设计选题推荐-基于大数据的旅游网站用户行为数据分析系统-Hadoop-Spark-数据可视化-BigData
  • 深入浅出数据结构:队列(Queue)—— 生活中的排队艺术
  • spring通过Spring Integration实现udp通信
  • Linux内存管理章节十八:内核开发者的武器库:内存分配API实战指南
  • CAD如何输出PDF多页文件
  • 我对 WPF 动摇时的选择:.NET Framework 4.6.2+WPF+Islands+UWP+CompostionApi
  • 1.整流-滤波电路的缺点和PFC的引入
  • QT 项目 线程信号切换 举例
  • 构网型5MW中压储能变流升压一体机技术方案
  • 【数据工程】8. SQL 入门教程
  • C++---前向声明
  • 在Qt项目中使用QtConcurrent::run,实现异步等待和同步调用
  • 经验分享只靠口头传递会带来哪些问题