当前位置: 首页 > news >正文

ODA服务器计算节点本地硬盘状态异常的处理

近期,在系统巡检过程中发现一个客户的ODA服务器本地硬盘节点出现告警,ODAX8 X9等,本地硬盘是使用的240GB M.2接口的SSD盘(卡式)的,这个没有外置的指示灯可以从服务器前面板查看,打开服务器机箱盖子倒是可以看到M.2盘上面有绿色指示灯,但是一般巡检不会看这个。

因此这个问题很有隐蔽性,2块M.2接口的SSD盘做的RAID1,系统层面巡检一般也不会注意到该问题,需要通过特定的命令 cat /proc/mdstat、odaadmcli show localdisk来查看,同时通过ILOM查看时候STORAGE菜单里面显示的盘状态是正常,系统日志里可能会有日志显示盘INSERT/REMOTE,可以参考。

本次通过插拔硬盘和重启主机后,告警恢复了。

如下是本次的处理过程:

状态检查:

[root@hisdb2 ~]# odaadmcli show localdisk
        NAME            PATH            TYPE            STATUS                 STATE_IN_ILOM
 
        lpd_0           sda             SSD             GOOD                   GOOD           
        lpd_1           N/A             SSD             MISSING                GOOD    ====这个盘损坏了       

[root@hisdb2 ~]# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sda[0]
      234425344 blocks super external:/md127/0 [2/1] [U_]  ==正常是UU,这里是U_
      
md127 : inactive sda[0](S)
      5201 blocks super external:imsm
       
unused devices: <none>

ILOM里面的日志:可以看到有盘INSERT/REMOVED,类似盘不稳定,

重启和插拔硬盘后,系统恢复:

需要注意,ODA的服务需要开启集群软件,所以不能吧CRS开机启动关闭:

May  8 17:41:46 hisdb2 su: (to grid) root on none
May  8 17:41:46 hisdb2 su: (to root) root on none
May  8 17:41:46 hisdb2 su: (to root) root on none
May  8 17:43:14 hisdb2 init.oak: 2025-05-08 17:43:14.460969204:[init.oak]:[Waiting for Cluster Ready Services. Diagnostics in /tmp/crsctl.4142]
May  8 17:45:45 hisdb2 init.oak: 2025-05-08 17:45:45.619750299:[init.oak]:[Waiting for Cluster Ready Services. Diagnostics in /tmp/crsctl.4142]

重启后识别到2块M2硬盘,系统会自动同步数据修复RAID,日志如下:

[root@hisdb2 ~]# odaadmcli show localdisk
        NAME            PATH            TYPE            STATUS                  STATE_IN_ILOM
 
        lpd_0           sda             SSD             GOOD                    GOOD           
        lpd_1           sdb             SSD             GOOD                    GOOD           
[root@hisdb2 ~]# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sdb[1] sda[0]
      234425344 blocks super external:/md127/0 [2/1] [U_]
      [=====>...............]  recovery = 25.8% (60691392/234425344) finish=14.3min speed=202388K/sec
      
md127 : inactive sda[1](S) sdb[0](S)
      10402 blocks super external:imsm
       
unused devices: <none>
[root@hisdb2 ~]# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sdb[1] sda[0]
      234425344 blocks super external:/md127/0 [2/1] [U_]
      [======>..............]  recovery = 32.2% (75616576/234425344) finish=13.2min speed=199081K/sec
      
md127 : inactive sda[1](S) sdb[0](S)
      10402 blocks super external:imsm
       
unused devices: <none>

最终状态:

[root@hisdb2 ~]# cat /proc/mdstat
Personalities : [raid1] 
md126 : active raid1 sdb[1] sda[0]
      234425344 blocks super external:/md127/0 [2/2] [UU]
      
md127 : inactive sda[1](S) sdb[0](S)
      10402 blocks super external:imsm
       
unused devices: <none>
[root@hisdb2 ~]#  odaadmcli show localdisk
        NAME            PATH            TYPE            STATUS                  STATE_IN_ILOM
 
        lpd_0           sda             SSD             GOOD                    GOOD           
        lpd_1           sdb             SSD             GOOD                    GOOD 
 

可以参考的MESSAGE日志

May  8 18:16:20 hisdb2 kernel: md/raid1:md126: active with 1 out of 2 mirrors
May  8 18:16:20 hisdb2 kernel: md126: detected capacity change from 0 to 240051552256
May  8 18:16:20 hisdb2 kernel: md126: p1 p2 p3
May  8 18:16:20 hisdb2 systemd: Starting MD Metadata Monitor on /dev/md127...
May  8 18:16:20 hisdb2 systemd: Started MD Metadata Monitor on /dev/md127.
May  8 18:16:20 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: EXT4-fs (md126p2): mounted filesystem with ordered data mode. Opts: (null)
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:21 hisdb2 kernel: md: md126: recovery interrupted.
May  8 18:16:21 hisdb2 kernel: md: md126 still in use.
May  8 18:16:21 hisdb2 kernel: md: recovery of RAID array md126
May  8 18:16:22 hisdb2 systemd: Stopped MD Metadata Monitor on /dev/md127.
May  8 18:16:24 hisdb2 systemd: Starting MD Metadata Monitor on /dev/md127...
May  8 18:16:24 hisdb2 systemd: Started MD Metadata Monitor on /dev/md127.
May  8 18:16:24 hisdb2 systemd-fsck: /dev/md126p2: clean, 67/128016 files, 148390/512000 blocks
May  8 18:16:24 hisdb2 kernel: EXT4-fs (md126p2): mounted filesystem with ordered data mode. Opts: (null)
May  8 18:16:24 hisdb2 kernel: FAT-fs (md126p1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
May  8 18:17:21 hisdb2 systemd: rc-local.service: control process exited, code=exited status=127
May  8 18:31:12 hisdb2 systemd: Starting Cleanup of Temporary Directories...
May  8 18:31:12 hisdb2 systemd: Started Cleanup of Temporary Directories.
May  8 18:36:11 hisdb2 kernel: md: md126: recovery done.


t同时,linux   lsblk命令也可以看到2块盘对应了系统的分区:

[root@hisdb2 ~]# lsblk
NAME                         MAJ:MIN   RM   SIZE RO TYPE  MOUNTPOINT

sdb                            8:16     0 223.6G  0 disk  
└─md126                        9:126    0 223.6G  0 raid1 
  ├─md126p2                  259:1      0   500M  0 md    /boot
  ├─md126p3                  259:2      0 222.6G  0 md    
  │ ├─VolGroupSys-LogVolOpt  252:20     0    30G  0 lvm   /opt
  │ ├─VolGroupSys-LogVolSwap 252:1      0    24G  0 lvm   [SWAP]
  │ ├─VolGroupSys-LogVolU01  252:21     0    40G  0 lvm   /u01
  │ └─VolGroupSys-LogVolRoot 252:0      0    30G  0 lvm   /
  └─md126p1                  259:0      0   500M  0 md    /boot/efi
sda                            8:0      0 223.6G  0 disk  
└─md126                        9:126    0 223.6G  0 raid1 
  ├─md126p2                  259:1      0   500M  0 md    /boot
  ├─md126p3                  259:2      0 222.6G  0 md    
  │ ├─VolGroupSys-LogVolOpt  252:20     0    30G  0 lvm   /opt
  │ ├─VolGroupSys-LogVolSwap 252:1      0    24G  0 lvm   [SWAP]
  │ ├─VolGroupSys-LogVolU01  252:21     0    40G  0 lvm   /u01
  │ └─VolGroupSys-LogVolRoot 252:0      0    30G  0 lvm   /
  └─md126p1                  259:0      0   500M  0 md    /boot/efi

相关文章:

  • [架构之美]Windows系统安装MySQL 8.0详细图文教程(十八)
  • [手写系列]Go手写db — — 完整教程
  • Linux `uptime` 指令详解与系统监控指南
  • One Data理论
  • Docker Desktop安装在其他盘
  • 材料创新与工艺升级——猎板PCB引领高频阻抗板制造革命
  • 第3.2.3节 Android动态调用链路的获取
  • vue vite 无法热更新问题
  • 北京导游资格证备考单选题题库及答案【2025年】
  • 【RT-Thread Studio】W25Q128配置
  • 【字符函数和字符串函数】
  • Cadence 高速系统设计流程及工具使用三
  • NX949NX952美光科技闪存NX961NX964
  • C++——继承
  • 华为云Git使用与GitCode操作指南
  • Windows报错:OSError: [WinError 1455] 页面文件太小,无法完成操作的问题
  • C. scanf 函数基础
  • Linux系统入门第十二章 --Shell编程之正则表达式
  • MySQL 从入门到精通(四):备份与恢复实战——从逻辑到物理,增量备份全解析
  • [CLS] 向量是 BERT 类模型中一个特别重要的输出向量,它代表整个句子或文本的全局语义信息
  • 非洲雕刻艺术有着怎样的“变形之美”
  • 北上广深均宣布下调个人住房公积金贷款利率
  • 最新研究:基因编辑治疗晚期胃肠道癌显成效
  • 上海市委政法委召开会议传达学习总书记重要讲话精神
  • 缅甸国防军继续延长临时停火期限至5月31日
  • 自我田野|从城市搬到农村生活,我找回了真实和附近