当前位置: 首页 > news >正文

linux 故障处置通用流程-36计+1计

  1. 通用标准处置快速索引

编号

通 用 标 准 处 置

索 引

001

Linux操作系统标准关闭

002

Linux操作系统标准重启

003

Linux操作系统强行关闭

004

Linux操作系统强行重启

005

检查Linux操作系统CPU负载

006

查询占用CPU资源最多的进程

007

检查Linux操作系统内存使用率

008

查询占用内存资源最多的进程

009

判断是否有僵尸进程

010

检查Linux操作系统磁盘I/O负载

011

查询消耗I/O资源最多的进程

012

文件系统信息

013

物理卷、卷组和逻辑卷

014

查看系统主要日志

015

主机通讯是否有延迟

016

主机通讯延迟或丢包

017

主机路由设置是否正确

018

到相连业务系统的通讯是否正常

019

网卡驱动是否正常加载

020

网卡配置信息检测

021

网卡配置参数

022

查看双机状态

023

重启群集服务

024

群及服务切换到备机

025

关闭主机群集服务

026

手工恢复群集服务

027

搜集系统信息

028

进入单用户模式

029

进入紧急救援模式

030

查看服务器端口是否正常开启

031

网络连接数统计

032

交换区使用情况检查

033

文件句柄数调整

034

主机启动时fstab中有错误配置

035

bond主备网卡切换

036

查看内核slab内存占用

037

清理系统内存中的cache和buffer

001:Linux操作系统标准关闭
  1. 通过堡垒机以root用户登录;
  2. 根据需求首先关闭应用程序/数据库(该步骤可选,需要的系统请明示步骤)
  3. 执行shutdown -h now

002:Linux操作系统标准重启

shutdown -r now

003:Linux操作系统强行关闭

  1. 通过堡垒机以root用户登录;
  2. 执行 poweoff

虚拟化平台(VM和华为云):

登录VM Vcenter-通过搜索查询到所需操作的虚拟机-右键虚拟机-启动-关闭电源

登录华为云 ManagerOne-左侧服务列表-弹性云服务器-更多-实例状态-关机

物理机带外:通过带外IP登录网页-电源-关机

004:Linux操作系统强行重启

  1. 通过堡垒机以root用户登录;
  2. 执行echo b > /proc/sysrq-trigger 或者执行 reboot -nf

虚拟化平台(VM和华为云):

登录VM Vcenter-通过搜索查询到所需操作的虚拟机-右键虚拟机-启动-重新启动客户机操作系统

登录华为云 ManagerOne-左侧服务列表-弹性云服务器-更多-实例状态-重启

物理机带外:通过带外IP登录网页-电源-重启

005:检查Linux操作系统CPU负载

  1. 通过堡垒机以root或普通权限用户登录
  2. 执行top命令;

  1. 执行sar -u 2 30命令; 2秒采样一次 采样30次
  2. 执行 sar -u -f /var/log/sa/sa+日期
  3. 执行vmstat 2 30命令;
  4. 执行mpstat 2 30命令;

006:定位占用CPU资源最多的进程

  1. 执行top命令;
  2. 在top命令执行窗口,使用热键“P”,按照CPU使用率对进程进行排序。

007:检查Linux操作系统内存使用率

  1. 执行命令:top;
  2. 执行命令:free;
  3. 执行命令:cat /proc/meminfo
  4. top--在程序界面中,查看MEM、Swap、Buffer、Cache数值;
  5. free:查看+/-buffers/cache后的内存使用率;
  6. cat /proc/meminfo:查看内存详细使用情况

008:查询占用内存资源最多的进程

  1. 执行top;
  2. 在top界面中按热键“M”,按照内存使用率对进程进行排序。
  3. 验证步骤:根据top命令输出排序结果,定位占用内存资源最多的进程。

​​​​​​​009:判断是否有僵尸进程

  1. 执行top命令;
  2. 执行ps aux|grep defunct命令
  3. 执行top:查看top输出中是否提示有僵尸进程及其数量;

  4. 使用ps命令查找并定位僵尸进程。

​​​​​​​010:检查Linux操作系统磁盘I/O负载

        执行:vmstat 1

        iostat 1

        sar -d命令

  1. vmstat反映了进程的虚拟内存,虚拟内存,磁盘,trap和cpu的活动情况,在多cpu系统中,vmstat在输出结果中平均了cpu数量
  2. iostat:如果想看每个设备的io情况,可使用iostat命令。

​​​​​​​011:查询消耗I/O资源最多的进程

操作步骤:

  1. 运行iotop工具进行系统I/O性能监控
  2. 运行iostat 命令查看 语法:【选项】【间隔时间】【次数】

常用参数:

-c:显示CPU利用率

-d:显示设备利用率

-t:显示时间戳

-x:显示详细磁盘指标

-y:跳过第一条数据

-k:显示单位为KB

-m:显示单位为MB

-p:指定主设备,显示主设备下所有磁盘信息

示例:

iostat -c 1 3 #输出3次 每次间隔一秒

iostat 1 2 #1秒刷新一次 统计2次

验证步骤:根据iotop输出结果验证

常用参数:

-o:只显示有io操作的进程

-b:批量显示,无交互,主要用作记录到文件。

-n NUM:显示NUM次,主要用于非交互式模式。

-d SEC:间隔SEC秒显示一次。

-p PID:监控的进程pid。

-u USER:监控的进程用户。

示例

iotop

​​​​​​​

​​​​​​​012:文件系统信息

  1. 执行以下命令查看文件系统挂载情况:

#df -h 查看文件系统使用率

#df -i 查看文件系统inode使用率

#mount 查看文件系统mount属性

#cat /etc/fstab 确认是否有未挂载文件系统

  1. 查看日志中是否有关于文件系统的报错信息

#tail -2000 /var/log/messages

        验证步骤:

  1. 文件系统正常挂载,读/写属性正常,日志无报错;
  2. 可手工创建临时文件,以验证文件系统的可读/写性。

​​​​​​​013:物理卷、卷组和逻辑卷

  1. 执行以下命令查看PV、VG、LV信息:

#pvs ;#pvdisplay 查看物理卷信息

#vgs ;#vgdisplay 查看卷组信息

#lvs ;#lvdisplay 查看逻辑卷信息

  1. 查看日志中是否有关于文件系统的报错信息

#tail -2000 /var/log/messages

#cat /var/log/messages |grep -i fs

验证步骤:

  1. 物理卷、卷组、逻辑卷状态正常,读/写属性正常,日志无报错;
  2. 如果要查看PV、VG和LV的详细扫描信息,可以使用命令pvdisplay、vgdisplay、lvdisplay并搭配 “-vvvv”参数使用。

相关文章:

  • 比较运算符:==、!=、>、<、>=、<=
  • 【C/C++】进一步介绍idl编码
  • 《动手深度学习》8.2文本预处理—代码分析
  • 运行labelme
  • java day15 (数据库)
  • Oracle实用参考(13)——Oracle for Linux静默安装(1)
  • FAST(Features from Accelerated Segment Test)角检测算法原理详解和C++代码实现
  • dvwa8——SQL Injection(Blind)
  • Hive开窗函数的进阶SQL案例
  • 使用PyQt5的图形用户界面(GUI)开发教程
  • 【hive sql】窗口函数
  • QT聊天项目DAY13
  • C# Wkhtmltopdf HTML转PDF碰到的问题
  • RDMA简介3之四种子协议对比
  • 图神经网络实战——图属性度量方法详解
  • 人机融合智能 | 可穿戴计算设备的多模态交互
  • java从azure中读取用户信息
  • 【Pandas】pandas DataFrame sample
  • 微软重磅发布Magentic UI,交互式AI Agent助手实测!
  • mybatis 参数绑定错误示范(1)
  • 二维码导航网站源码/十大搜索引擎神器
  • wordpress相关网站/哪家网络推广好
  • 广东卫视你会怎么做网站/交换友链
  • 免费建网站哪个好/宣传软文是什么意思
  • 网站建设规划书的空间/营销助手
  • 可以直接做ppt的网站/seo网站优化推广教程