oracle备库主机断电重启后IO异常报错
两节点rac adg环境4个实例,节点1异常重启后IO报错
检查控制文件为0字节,
第一感觉是不是控制文件损坏了?但节点2说是没有报错,理论上如果控制文件坏了,库应该挂掉了。
尝试重启另外一共adg实例,发现读取其它数据文件也IO读写错误。
这说明大概率是存储链路或存储出现故障了。
检查操作系统日志/var/log/messages发现udev的rules文件竟然报错,检查文件发现确实多了两个??号。(比较奇怪的是这个系统已经跑了有1年多都正常的,节点1也重启过多次,系统没有报过上述错误,检查文件时间也还是2019年前的,最近并没有变更)
修改两节点文件96-oracle-asmdevices.rules,后重启两节点:
发现磁盘识别是正常的,但集群服务半天没有正常起来。
只有两个进程:
强制停掉两个节点的集群服务,kill -9 d.bin看到的进程号。
手动启动crs依然报错:
不管了,再次kill -9 d.bin看到的进程号
两个节点删除集群启动的临时文件rm -rf /var/log/.oracle/*
重启两个节点,过5分钟,节点1集群服务器启动正常,但节点2还是只有两个集群进程始终起不来。
再次 删除节点2的集群启动的临时文件rm -rf /var/log/.oracle/*,reboot后,节点2也正常启动集群服务了。
怪不怪???