当前位置: 首页 > news >正文

linux 故障处置通用流程-36计-14-27

014:查看系统主要日志

查看以下日志:

主要查以下关键字 error/NIC/fs /"link down"/Oout of memory"

/var/log/messages

/var/log/dmesg

015:主机通讯是否延迟

执行命令:

#ping 网关_IP

#ping 关联主机_IP

​​​​​​​016:主机通讯是否丢包

执行:

#/sbin/ifconfig

#ping -c 次数 IP地址

​​​​​​​017:主机路由设置是否正确

  1. 执行以下命令:

#route

#cat /proc/net/route

  1. 查看路由是否正确添加;
  2. 当前路由所对应物理网卡是否正确;
  3. 最多只有一条缺省路由。

​​​​​​​018:到相连业务系统的通讯是否正常

  1. 执行命令:

#ping 关联系统_IP网关_IP

#telnet 关联系统_IP PORT_NUMBER

#route

#traceroute 关联系统_IP

#ifconfig

  1. 检测与目标主机的连通性;
  2. 检测路由正确性;
  3. 检测网卡状况是否正常。
019:网卡驱动是否正常加载
  1. 执行命令:

#cat /var/log/mesages | grep -Ei "system boot|Err|Warn| Fatal|fail|Killsingal" 查看日志信息

#ifconfig 查看网卡工作状态

#lspci |grep -i eth(linux7)、

dmesg | grep -i eth(linux6) 查看物理网卡

#ethtool -i 网卡_名称 查看指定网卡所使用的驱动程序

#cat /proc/modules 查看已加载驱动

#lsmod 查看当前网卡驱动是否已经正确加载

#modinfo 驱动_名称 查看驱动信息

  1. 查看messages日志文件中是否有报错;
  2. 根据ifconfig查看网卡工作状态;
  3. 根据lspci判断物理网卡型号;
  4. 使用ethtool查看指定网卡所使用的驱动程序;
  5. 根据/proc/modules、lsmod判断网卡驱动是否已经正常加载;
  6. 使用modinfo查看驱动程序详细信息。
020:网卡配置信息检测

#ping _IP

#ping 关联主机_IP

#ifconfig 查看网卡信息

#tail -2000 /var/log/messages 查看日志信息

#cat /etc/sysconfig/network- scripts/ifcfg-eth?,

查看IP,掩码,网关等设置信息;

修改配置文件后,执行 #service network restart(linux6)、systemctl restart network(linux7) ,重启网络服务。

  1. 检测主机与网及关联主机通讯是否正常;
  2. 主机网卡状态是否正常;
  3. 系统日志中是否有明显报错;
  4. 主机缺省路由是否配置正确;
  5. 网卡配置文件是否正确:如果配置文件中含有MAC地址,应使用dmesg命令,验证MAC地址是否填写正确;
  6. 调整配置并重启网络服务

021:网卡配置参数

执行命令:

#ethtool 网卡_名称

使用ethtool命令,查看网卡配置是否正常,主要关注网卡连接模式(10/100/1000baseT)及工作模式(Half/Full)。

022:查看群集状态及共享资源

执行:clustat(redhat6)

pcs status (redhat7)

  1. 集群资源状态为Online
  2. 集群资源状态为Started
023:重启群集服务

redhat6

#clusvcadm –r test_svc (test_svc 资源组名字)

重新启动test_svc这个服务;

redhat7

pcs resource unmanager <resource_name>

pcs cluster disunmanagerable

pcs cluster enable

pcs resource unmanager <resource_name>

  1. 查看日志:tail -f /var/log/messages
  2. 使用clustat(redhat6)/pcs stauts(redhat7)查看双机节点及服务状态。
  1. 命令执行成功,服务重新运行于当前节点;
  2. 切换过程中,messages日志文件中报错信息;
  3. clustat命令显示双机节点及服务状态正常。

024:群集服务切换到备机
  1. 如果主机服务异常,且通过重启主机服务进程亦无法恢复,那么可以将服务切换到备机:

redhat 6

#clusvcadm –r test_svc -m host2

将服务test_svc切换到主机host2上运行

redhat7

pcs cluster standby node1

将node1上的资源切换到主机node2上运行

pcs cluster unstandby node1

  1. 查看日志:tail -f /var/log/messages
  2. clustat/pcs status命令显示双机节点及服务状态正常。​​​​​​​
  3. 命令执行成功,双机节点正常切换;
  4. 切换过程中,messages日志文件中报错信息;
  5. clustat/pcs status命令显示双机节点及服务状态正常
025:关闭主机群集服务
  1. 如果RHCS集群环境中,主、备机均无法正常提供服务,那么可以手工启动或是冷备机的方式恢复服务,但在这之前需要先关闭集群中的服务进程:

#clusvcadm –s test_svc –m host2

redhat6

在两个节点执行同时进行操作

service rgmanager stop

service clvmd stop

service cman stop

redhat7

pcs cluster disable --all

  1. 执行clustat命令查看服务关闭情况;clustat 命令不存在
  2. 使用df、ping、”ip addr list”命令,确认群集共享资源已释放;
  3. 查看日志:tail -f /var/log/messages;
    1. 群集Service正常关闭;
    2. 群集共享资源已释放;
    3. 系统日志无报错;
    4. 群集各节点Cluster服务关闭;

 

026:手工恢复群集服务
  1. 在停止RHCS服务后,可按照以下步骤手工挂载资源,并启动服务:

网络IP地址:使用ifconfig命令,修改服务地址;

存储空间:

vgscan 扫描可用卷组;

vgdisplay 查看卷组信息;

importvg VG_NAME 导入卷组信息;

vgchange -ay VG_NAME 激活卷组;

lvscan 识别lv;

如果上述操作中,卷组无法在单机激活,则有可能是在/etc/lvm/lvm.conf中配置了volume_list和locking_type限制,只有带有相应TAG标签的卷组才能在相应主机激活,可按如下操作验证并调整:

#vgs -o +vg_tags 查看卷组标签信息

#vgchange -addtag `hostname` 共享_VG_NAME

#vgs -o +vg_tags 验证卷组标签是否已经添加】

文件系统:根据lvscan信息,mount相关文件系统;

配置文件:检查/etc/passwd,/etc/hosts,/etc/services等配置文件是否正常;

检测数据库配置信息完备,尝试启动数据库(其间注意观察数据库日志信息);

应用服务:根据应用服务启动顺序,启动各项应用服务。

  1. 查看日志:tail -f /var/log/messages
    1. 手工添加Service IP;
    2. 卷组可以正常在单机激活;
    3. lv信息正常;
    4. 在单机手工挂载共享存储资源;
    5. 启动数据库及应用。

 

027:群集服务冻结和解冻

redhat6

clusvcadm -Z 资源名字

redhat7

pcs status

pcs cluster standby node1(没有资源的节点)

pcs resource unmanager service (如果两个节点都有资源)

2) 解冻

redhat6

clusvcadm -U 资源名字

应用服务:根据应用服务启动顺序,启动各项应用服务。

  1. 查看日志:tail -f /var/log/messages
    1. 手工添加Service IP;
    2. 卷组可以正常在单机激活;
    3. lv信息正常;
    4. 在单机手工挂载共享存储资源;
    5. 启动数据库及应用。

相关文章:

  • 【计算机网络】NAT、代理服务器、内网穿透、内网打洞、局域网中交换机
  • centos实现SSH远程登录
  • 拆解实战案例:电商ERP管理系统从需求到原型全流程设计
  • 构建云原生安全治理体系:挑战、策略与实践路径
  • Python Rio 【图像处理】库简介
  • 【图像处理3D】:世界坐标系
  • 【深尚想】OPA855QDSGRQ1运算放大器IC德州仪器TI汽车级高速8GHz增益带宽的全面解析
  • flutter 中Stack 使用clipBehavior: Clip.none, 超出的部分无法响应所有事件
  • 【图像处理3D】:焦距的像素单位标定
  • CICD实战(二)-----gitlab的安装与配置
  • 智慧赋能:新能源汽车充电桩应用现状与管理升级方案
  • Apache DolphinScheduler 和 Apache Airflow 对比
  • Flutter嵌入式开发实战 ——从树莓派到智能家居控制面板,打造工业级交互终端
  • 上门服务小程序会员系统框架设计
  • OpenCV CUDA模块图像处理-----对图像执行 均值漂移过程(Mean Shift Procedure)函数meanShiftProc()
  • sentinel规则持久化
  • 【图像处理入门】6. 频域图像处理:傅里叶变换与滤波的奥秘
  • Xcode 16.4 + iOS 18 系统运行时崩溃:___cxa_current_primary_exception 符号丢失的原因与解决方案
  • 专业级PDF转CAD解决方案
  • OMS主动运维服务:赋能中小企业运维价值升级
  • 食品行业网站建设方案/互联网营销模式
  • jsp网站源码 怎么用/白山网络推广
  • 网站里的动画效果图/2023年小学生简短小新闻
  • 网站建设怎么做帐/青岛关键词网站排名
  • 武汉专业网站建设推广/人工智能培训班
  • 广东专业做网站排名公司哪家好/杭州seo关键字优化