当前位置: 首页 > news >正文

【银河麒麟高级服务器操作系统】服务器卡死后恢复系统日志丢失-分析及处理全过程

了解更多银河麒麟操作系统全新产品,请点击访问

麒麟软件产品专区:https://product.kylinos.cn

开发者专区:https://developer.kylinos.cn

文档中心:https://document.kylinos.cn


服务器环境以及配置

【机型】

处理器:

海光

内存:

512G

【内核版本】

 4.19.90-25.40.v2101.ky10.x86_64

【OS镜像版本】

银河麒麟高级服务器操作系统 Kylin-Server-10-SP2-Release-Build09-20210524-x86_64

【第三方软件】

K8S

现象描述

服务器卡死后恢复,系统有日志丢失。

现象分析

① 日志分析

  messages日志在1点48分-2点04分发生日志断层,在2点02分以后,打印hungtask进程调用栈,其中systemd-journal进程也出现hungtask,因此未记录日志(图 1)。

图 1

     梳理sar日志,11.3号凌晨内存使用率一直都较低(图 2),CPU波动不大,但是负载在1点40分时猛增,2点04分以后逐渐恢复(图 3),磁盘使用率有一定波动,结合前场反馈,问题复现时都是在启动业务之后,推断1点40分时客户启动业务导致CPU负载增加,但是问题机器上有128个CPU,因此负载在可承受范围之内。

图 2

图 3

② 内核调用栈分析

在问题复现后,在dmesg中可发现有很多hungtask被超过120秒,但是由于没有配置panic因此没有宕机而是在系统自愈后打印hungtask日志。且大部分调用栈中都有cgroup的处理流程。在2点04分打印oom的调用栈(图 4),但是结合sar日志此时系统内存使用率应该不高,不过通过调用栈可发现也有cgroup的处理流程。

图 4

分析结果

综上所述,日志断层是由于进程出现hungtask导致,出现hungtask以及oom的原因可能是与cgroup相关,需要进一步确认具体原因。

相关文章:

  • gitee 配置密钥key过程
  • 通过内网穿透ssh实现远程对家里的linux进行终端操作和编程
  • 20250213编译飞凌的OK3588-C_Linux5.10.209+Qt5.15.10_用户资料_R1
  • Java 同步锁性能的最佳实践:从理论到实践的完整指南
  • SQLite数据库中查询性能优化及索引创建的原则总结
  • Cesium for Unity Linux版本
  • 在 ARM64 架构系统离线安装 Oracle Java 8 全流程指南
  • 2025.2.8——一、[护网杯 2018]easy_tornado tornado模板注入
  • Quartz定时任务
  • 支持直接升级到21c的 Oracle 数据库版本
  • QT中线程中使用信号和槽传数据
  • 阿里云一键部署DeepSeek-V3、DeepSeek-R1模型
  • Oracle DBA 诊断及统计工具-2
  • django中间件,中间件给下面传值
  • vue基础(八)
  • 2848、与车相交的点
  • 游戏引擎学习第103天
  • [FastAdmin] 上传图片并加水印,压缩图片
  • 重读《Java面试题,10万字208道Java经典面试题总结(附答案)》
  • 一种 SQL Server 数据库恢复方案:解密、恢复并导出 MDF/NDF/BAK文件
  • 巴基斯坦军方:印度向巴本土及巴控克什米尔发射导弹
  • 新华社:赵心童世锦赛夺冠,中国书写斯诺克运动新历史
  • 工人日报关注跟着演出去旅游:票根经济新模式兴起,让过路客变过夜客
  • 印度扩大对巴措施:封锁巴基斯坦名人账号、热门影像平台
  • 人民日报头版:让青春之花绽放在祖国和人民最需要的地方
  • 五一假期旅游大市党政领导靠前调度,重视解决游客反映的问题