当前位置: 首页 > news >正文

Linux操作系统故障应急场景及对应排查方法

001:系统CPU负载高并触发监控报警

005

查看系统CPU使用情况,,确认CPU数量,确认系统负载,确认CPU高对系统的影响

006

定位占用CPU资源最多的进程,根据进程判断是应用进程还是系统进程还是第三方工具进程。

014

查看系统主要日志:在messages日志中是否有关于软、硬件的报错信息。

005

通过监控或者系统查看CPU使用高的时间

011

确认其他资源信息情况,IO/内存/内核

002:系统内存使用率高并触发监控报警

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

查看系统内存使用情况

定位占用内存资源较多的进程

判断是否有僵尸进程

查看系统主要日志

003:使用率高并长时间持续

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

查看系统I/O使用情况

定位占用I/O资源较多的进程

查看系统主要日志

应急处置结束。

004:Agent心跳超时

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

判断主机通讯状况

主机网卡是否存在丢包现象

主机路由设置是否正确

网卡配置参数是否正确

系统日志是否有明显报错

005:主机路由表丢失

判断主机通讯状况

主机网卡是否存在丢包现象

主机路由设置是否正确

系统日志是否有明显报错

​​​​​​​006:通讯异常并报网卡故障

场景描述:主机通讯中断或有延迟、丢包现象,系统日志中有关于网卡的报错信息。

启动条件:系统日志中有网卡报错信息

现场保护:ifconfig、messages、dmesg日志

通过堡垒机使用root用户登录主机,执行sosreport命令保存现场信息

判断主机通讯状况

主机网卡是否存在丢包现象

系统日志是否有明显报错

网卡驱动是否正常加载

网卡配置信息是否正确

bond主备网卡切换

搜集系统信息

​​​​​​​007:与相关连业务系统通讯异常

现场保护:ifconfig、route、messages、dmesg

015

判断主机通讯状况

016

主机网卡是否存在丢包现象

014

系统日志是否有明显报错

019

网卡驱动是否正常加载

020

网卡配置信息是否正确

​​​​​​​008:群集系统服务异常

现场保护:使用sosreport命令收集系统信息。

022

查看双机状态及共享资源

014

系统日志是否有明显报错

result of stop operation for VIP on

024

尝试将集群服务切换到备机

025

如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。

026

如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务

027

收集系统信息

​​​​​​​009:群集双机发生切换

启动条件: 当群集双机发生切换期间,会造成服务中断,以及Server IP无响应,通常会触发集中监控报警。

现场保护:执行sosreport命令收集系统信息。

022

查看双机状态及共享资源

014

查看系统日志信息

024

如果群集切换后系统服务异常,则尝试将集群服务切换到指定节点

​​​​​​​009:群集双机切换失败

022

查看双机状态及共享资源

014

系统日志是否有明显报错

024

尝试将集群服务切换到指定节点

025

如果群集切换失败,则考虑手工先行恢复系统服务,并首先关闭群集各节点Cluster服务。

026

如果群集切换失败,且短时间内无法解决,则先行手工恢复系统集群服务

​​​​​​​010:主机挂起

现场保护:这种情况下,通常日志系统(syslog)已经不再记录信息,只能对主机执行重启操作;对于配置了kdump的主机,可以手工触发vmcore(echo c > /proc/sysrq-trigger)。

grep crashkernel /proc/cmdline

systemctl status kdump

/var/crash/127.0.0.1-yyyy-mm-dd-hh:mm:ss/vmcore

014

查看系统日志信息

002

手工重启主机

004

若手工重启主机失败,可强制重启主机。

014

主机启动后,检查系统日志是否有报错信息。

027

搜集系统信息

​​​​​​​011:主机自动重启

现场保护:收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。

使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

检查应用系统是否恢复

​​​​​​​012:主机宕机

使用root用户登录主机,执行sosreport -a命令保存现场信息收集系统日志,查看/var/crash/是否有vmcore日志

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

检查应用系统是否恢复

​​​​​​​013:主机宕机并自动重启失败

现场保护:查看主机硬件是否有报错信息;得到授权后之后启动主机,并在控制台观察启动过程中是否有报错信息;如果主机无法正常启动,则根据主机启动报错信息进行修复。待主机启动完毕后,使用root用户收集sosreport信息;如果主机配置了kdump,则保留vmcore文件。

028

根据主机控制台信息,得到行员授权后尝试进入单用户模式进行修复

029

如果系统在单用户模式下无法修复,则需使用操作系统安装光盘引导进入救援模式进行修复。完成后重启主机

014

查看系统日志信息

012

检查文件系统信息

013

查看PV、VG、LV信息

015

查看网络通讯状况

017

查看主机路由设置

​​​​​​​014: swap交换分区使用率

现场保护:使用sosreport命令收集系统信息

使用top命令调整查看(使用热键f,根据方向键移动到SWAP行,选中按d, ESC退出编辑,即可查看)

定位占用swap资源较多的进程

判断是否有僵尸进程

查看系统主要日志

​​​​​​​015:NTP服务状态异常

检查NTP同步状态:ntpq -p 或者 chronyc sources -v

检查NTP服务状态:service ntpd status 或者systemctl status chronyd 检查是否设置开机自启动systemctl list-unit-files

检查NTP配置文件:cat /etc/ntp.conf 或者 cat /etc/chrony.conf

查看NTP的offset详细信息:ntptime或者chronyc tracking -v

查看系统主要日志

重启NTP服务:service ntpd restart 或者 systemctl restart chronyd

016:文件系统监控告警

现场保护:使用sosreport命令收集系统信息

012

检查文件系统状态:

#df -h

#df -ih

#mount

#cat /etc/fstab

014

查看系统主要日志

相关文章:

  • 湖北理元理律师事务所:债务优化中的民生保障实践
  • FreeRTOS任务之深入篇
  • 关键字--sizeof
  • Python抽象基类实战:构建广告轮播框架ADAM的核心逻辑
  • robot_lab train的整体逻辑
  • SDC命令详解:使用set_propagated_clock命令进行约束
  • 如何思考?分析篇
  • 深入剖析MySQL锁机制,多事务并发场景锁竞争
  • 34 C 语言字符串转数值函数详解:strtol、strtoll、strtoul、strtoull(含 errno 处理、ERANGE 错误)
  • 硬盘寻址全解析:从 CHS 三维迷宫到 LBA 线性王国
  • Linux安全机制:从SELinux到Intel SGX的堡垒
  • Vue2 模板中使用可选链操作符(?.)的坑
  • Spring框架实现IOC
  • 【RTSP从零实践】1、根据RTSP协议实现一个RTSP服务
  • JavaScript篇:字母侦探:如何快速统计字符串里谁才是‘主角‘?
  • Improving Chinese Spelling Check by Character Pronunciation Prediction
  • 快速了解:单北斗终端的定义、作用与好处!
  • 基于ROS2,撰写python脚本,根据给定的舵-桨动力学模型实现动力学更新
  • RD-Agent-Quant:一个以数据为中心的因素与模型联合优化的多智能体框架
  • ROS2,工作空间中新建了一个python脚本,需要之后作为节点运行。告诉我步骤?
  • 青岛企业网站模板建站/网络营销推广系统
  • wordpress开发工作流/比较好的网络优化公司
  • 代理网店怎么开/快速网站排名优化
  • 肥城市住房和城乡建设厅网站/微信营销推广软件
  • 重庆网站seo优化/企业网站注册
  • 去菲律宾做it网站开发/seo工作室