当前位置: 首页 > news >正文

手搓一个 DELL EMC Unity存储系统健康检查清单

 写在前面

对于DELL EMC存储系统Unity的一些深度的健康检查通过Web的Unisphere图形化界面是做不到的,图形化界面只能看到是否有告警,物理的东西是否有问题的,逻辑的Pool和LUN等是否ready,再深入的潜在的问题是查不到的。

另外,在对客户的控制器或者文件系统恢复以后,也需要做一些健康检查确保系统的正常运行。出了常见的使用UEMCLI来检查,还可以使用升级中的pre-upgrade的升级检查,都是很方便的。

但我们之类要share的是如何从底层命令行来做各种的深入健康检查,一些常用的命令,还有一些检查log中的潜在问题的命令。

下面所有的命令都是查询命令,对系统没有任何危害,请放心大胆使用。对了,这些命令有些应该是需要在root权限下运行。有问题就添加vx(StorageExpert)来沟通吧。

0. 基础信息

  • 当前用户/主机名
    whoami
    cat /etc/hostname
  • 系统型号与软件版本
    svc_diag

1. SP 状态检查

  1. 启动模式与服务状态
    get_boot_mode
    ps -e | grep iwd

期望:Normal Mode,且 iwd 存在(fully up)。

  1. 是否为 Primary(仅 Normal 模式)
    ps -e | grep ECOM

期望:ECOM 存在 → Primary。

  1. Boot Control
    svc_boot_control -l

期望:reboot:ON,softdog:ON。

  1. MCC Cache 丢失
    grep -i "CACHE LOST" /EMC/C4Core/log/start_c4.log
    svc_cache -q

期望:无 “CACHE LOST”,cache 查询正常。

  1. MCC Cache 未恢复
    下面的三个是在service mode下查询的

grep -i "Waiting for the peer SP" /mnt/ssdroot/EMC/C4Core/log/start_c4.log
grep -i "MCC cache not recovered"  /mnt/ssdroot/EMC/C4Core/log/start_c4.log
grep -i "DRAMCache: Valid CDR Image" /mnt/ssdroot/EMC/C4Core/log/start_c4.log

任意命中提示均是cache未恢复。

2. Panic / 安全日志

  • rolling panic / ACL
    svc_dc -lcd
    zgrep -E "panic backtrace.*updateGpoServer" /EMC/C4Core/log/c4_safe_native.log* | head -10

3. 磁盘与重建

  • 磁盘枚举
    c4admintool -c enum_disks
  • 离线与重建记录
    zgrep -E "Disk.*taken offline" /EMC/backend/log_shared/EMCSystemLogFile.*
    zgrep -E "rebuilding due to the loss of a drive|finished rebuilding" /EMC/backend/log_shared/EMCSystemLogFile.*

4. Pool 健康与空间

  • Pool 状态
    MluCli.exe poll -pool | egrep "^Identification_Name |^State_Current_State |^State_Internal_State |^State_Status |^UsableSize |^Consumed Space "
  • Pool 空间不足迹象
    zgrep -E "does not have enough free space available|available space of 0 blocks|has 0 slices available for use" /EMC/C4Core/log/c4_safe_ktrace.log* | head -10

5. LUN 状态与一致性

  • LUN 状态
    MluCli.exe poll -lu | egrep "^Identification_NiceName |^State_External_State |^State_Internal_State |^Status |^Replication Destination |^Host Access "
  • 数据一致性问题
    run_dbg_ext.pl -n mlu | egrep "NiceName|LostExtentCount"
    zgrep -E "FsRpt" /EMC/C4Core/log/c4_safe_ktrace.log* | head -10
    zgrep -E "HasCorruptCrc|Read I/O error due to CRC error" /EMC/C4Core/log/c4_safe_ktrace.log* | head -10

6. 文件系统 (UFS64)

  • 文件系统状态
    MluCli.exe poll -sf | egrep "^Name |^State |^IsMountedReadOnlyToApplyPoolFullPolicy |^State_Status |^Recovery_Flag |^ExportedSize |^SizeUsed |^Thin |^Upper Deck File System Id |^IsReadOnly |^IsReplicationDestination "
  • 挂载检查
    /nas/bin/server_df ALL

7. VDM (NAS Server)

MluCli.exe poll -sfs | egrep "^Name |^State |^State_Status |^Extended Status |^IsReplicationDestination |^IsPacketReflectEnabled "

8. 主机连接问题

zgrep "modified the HLU for host" /EMC/backend/log_shared/EMCSystemLogFile* | head -10
zgrep "iSCSI Authentication Failure" /EMC/backend/log_shared/EMCSystemLogFile* | head -10
grep -E "Can't expand filesystem which doesn't exist|matchedFsId: N/A" /EMC/CEM/log/cemtracer_host.log | head -5


文章转载自:

http://jvlP7v9T.qjLkp.cn
http://6T91uXbh.qjLkp.cn
http://eoA1o1Ko.qjLkp.cn
http://966RHCTL.qjLkp.cn
http://7RAS7efE.qjLkp.cn
http://i82G8k5c.qjLkp.cn
http://ye4xAXSe.qjLkp.cn
http://kRJiOJtW.qjLkp.cn
http://OG0qpqdK.qjLkp.cn
http://xxAzSiko.qjLkp.cn
http://3Zh9wUE3.qjLkp.cn
http://MOVI4IZq.qjLkp.cn
http://zLMDlW5c.qjLkp.cn
http://oPPNyZkv.qjLkp.cn
http://PUASa0k0.qjLkp.cn
http://Byd8wfsa.qjLkp.cn
http://bQEVt2qy.qjLkp.cn
http://1qikcq9t.qjLkp.cn
http://zmWzBoDJ.qjLkp.cn
http://wI2NwcUv.qjLkp.cn
http://c7GXaz3M.qjLkp.cn
http://J4Mo8tKW.qjLkp.cn
http://og4opDX6.qjLkp.cn
http://N39PfVzs.qjLkp.cn
http://ZDIzsdJG.qjLkp.cn
http://M5cB5t4S.qjLkp.cn
http://X286Yi5t.qjLkp.cn
http://XVlUvQwq.qjLkp.cn
http://jX5QxbWn.qjLkp.cn
http://n1il7VQH.qjLkp.cn
http://www.dtcms.com/a/383092.html

相关文章:

  • 字节M3-Agent:如何实现一个支持多模态长期记忆与推理的Agent
  • TCL华星计划投建第8.6代印刷OLED产线
  • Qt学习:moc生成的元对象信息
  • Java—JDBC 和数据库连接池
  • 软件工程实践四:MyBatis-Plus 教程(连接、分页、查询)
  • 用 Go 快速上手 Protocol Buffers
  • Java Stream 流学习笔记
  • Linux线程id与简易封装线程实现
  • 公链分析报告 - Secret Network
  • JavaScript 简单链表题目试析
  • 【ZYNQ开发篇】Petalinux和电脑端的静态ip地址配置
  • 电商AI导购系统的模型部署架构:TensorFlow Serving在实时推荐中的实践
  • 光射三缝实验
  • K8s部署 Redis 主从集群
  • Android点击桌面图库应用启动流程trace分析
  • 【抗量子安全】全球视角下 PQC 与 QKD 技术洞察:政策引领与产业演进
  • 代码随想录学习摘抄day9(回溯1-11)
  • 数据处理指令
  • SpringBoot 中 ZK 与 Kafka 节点选择逻辑:底层原理与实践解析
  • 事务与mysql数据库锁的关系
  • 继承类模板:函数未在模板定义上下文中声明,只能通过实例化上下文中参数相关的查找找到
  • 07-Redis 基础操作全攻略:从键管理到数据类型判断
  • 【linux】特殊权限
  • [数据结构] 排序
  • Python网络与多任务编程:TCP/UDP实战指南
  • Elasticsearch面试精讲 Day 17:查询性能调优实践
  • Go-zero 构建 RPC 与 API 服务全流程
  • CRI容器运行时接口
  • 《Python 自动化表单填写全攻略:从基础操作到实战案例》
  • 黑马程序员JVM基础学习笔记