vmware环境ORACLE RAC环境数据库节点1无法启动问题分析处理
近期在一个客户数据库巡检时发现ORACLE RAC环境数据库一节点故障,只有二节点在运行。
RAC环境正常安装完成后,后期典型的节点无法启动问题就是私网异常、共享存储异常等,检查机器日志可以快速定位问题;本次问题就是因为心跳网络问题导致,该环境为VMWARE虚拟化是搭建的RAC,底层硬件调整(数据库节点的虚拟机运行在了其他物理机),导致心跳网络2个节点无法联通,需要人工再调整网络策略后,集群可以正常恢复。
如下是整个排查过程:
crsctl stat res -t
crsctl stat res -t -init查看故障节点情况
- 首先尝试重启CRS服务并结合$ORACLE_HOME/log/alert.log日志查看
强制关闭crs
关闭日志显示如下:
启动crs:
当前日志没太多信息
- 查看系统日志
报ntp报错
查看了两节点时间,一节点时间快了一分钟,手工调整了一节点的时间。
- 查看心跳是否互通
两节点ping能通,但是traceroute不通
tracerout 二节点不通
查看cssd日志报错,报错如下:
判断是否网络打通,防火墙等情况。根据服务器信息了解,这两台为虚拟机。
查看后发现是虚拟机(出故障的一节点)网络接受功能没选择好。关闭一节点调整网络。
- 调整网络后重启CRS,一节点恢复