当前位置: 首页 > news >正文

《Ceph集群数据同步异常的根因突破与恢复实践》

分布式存储是支撑业务数据流转的核心底座,其稳定性直接决定了整个系统的抗风险能力。某政务云平台采用Ceph作为统一存储解决方案,为电子政务、民生服务等核心系统提供块存储与对象存储服务,却在一次常规集群扩容后遭遇了严重的数据同步异常——部分存储池的PG(Placement Group)状态持续处于“degraded”,数据副本同步停滞,触发了平台最高级别的灾备预警。这起故障并非简单的硬件或配置问题,而是Ceph底层CRUSH算法、OSD(Object Storage Daemon)调度机制与云原生环境弹性特征碰撞产生的复杂问题,其排查与恢复过程,为理解分布式存储在云原生场景下的运维难点提供了关键参考。

该政务云平台的Ceph集群采用“3主3从”的混合部署架构,包含6个存储节点(每个节点配置24核CPU、128GB内存、10块10TB SATA硬盘),运行Ceph Quincy版本,部署模式为容器化(基于Kubernetes的StatefulSet管理OSD与MON组件),存储池采用“3副本+EC(Erasure Code)”混合策略—核心业务数据使用3副本确保低延迟,非核心归档数据使用EC模式节省空间。集群总容量1.2PB,承载着200余个政务应用的数据存储需求,其中电子证照、社保缴费等系统要求数据RTO(恢复时间目标)不超过15分钟,RPO(恢复点目标)接近0。故障发生于运维团队为扩容存储容量,新增2个存储节点并加入集群之后,初期仅表现为新节点的OSD上线缓慢,2小时后多个核心存储池出现PG状态异常。值得注意的是,此次扩容正值月末政务业务高峰期,电子证照系统需处理大量企业资质审核文件存储请求,社保缴费系统也面临市民医保参保登记的数据写入压力,这为故障的恶化埋下了业务层面的隐患。

故障初期的现象呈现出“渐进式恶化”特征。通过Ceph Dashboard监控发现,新增节点的8个OSD中,有5个始终处于“up但inactive”状态,无法参与数据均衡;同时,“user-data”“gov-cert”两个核心存储池的PG健康状态从“active+clean”变为“active+degraded”, degraded PG数量从0逐渐增至42个,占总PG数的18%。查看Ceph日志发现,OSD之间的心跳检测正常,但数据副本同步时频繁出现“p


文章转载自:

http://gGiqQfBX.gtbjc.cn
http://CK6gKLa8.gtbjc.cn
http://uQOefC6u.gtbjc.cn
http://LrcEnpjU.gtbjc.cn
http://djsQioeA.gtbjc.cn
http://X91k86jF.gtbjc.cn
http://cFXLvMXh.gtbjc.cn
http://X8AlHgnh.gtbjc.cn
http://A7IYMCUK.gtbjc.cn
http://Csg8hjK6.gtbjc.cn
http://ZLbczc2U.gtbjc.cn
http://71lGDEHb.gtbjc.cn
http://mwG3pN2k.gtbjc.cn
http://XTLwIkhV.gtbjc.cn
http://RGKWCjMu.gtbjc.cn
http://Yn9hAvuB.gtbjc.cn
http://r3adNbRx.gtbjc.cn
http://IQP1g7bg.gtbjc.cn
http://56K09YL6.gtbjc.cn
http://ILhS9Oxu.gtbjc.cn
http://PFMXevnt.gtbjc.cn
http://ahIi93sq.gtbjc.cn
http://I1T2ZUEX.gtbjc.cn
http://VVpw1ekV.gtbjc.cn
http://rHMoiqUG.gtbjc.cn
http://Mzu6ayfn.gtbjc.cn
http://WN9mRjBo.gtbjc.cn
http://jj2hxfj3.gtbjc.cn
http://vBxdDUYm.gtbjc.cn
http://TLUgHcM1.gtbjc.cn
http://www.dtcms.com/a/368350.html

相关文章:

  • 从零开始的云计算生活——第五十九天,基于Jenkins自动打包并部署Tomcat环境
  • 串口通信的学习
  • 企业为何仍困在“数据孤岛”?——从iPaaS重构信息流的实践路径
  • MySQL 主从复制详解:部署与进阶配置
  • 一笔成形,秒绘标准图!Pen Kit重构“自然书写”体验
  • 解决IntelliJ IDEA 提交代码时无复选框问题
  • MyBatisX代码生成插件在IDEA中的安装配置、连接数据库表生成代码快速开发示例
  • Docker跨架构部署实操第二弹
  • VSCode+MobaXterm+X11可视化界面本地显示
  • FastGPT源码解析 Agent 大模型对接接口和使用详解
  • 上下文工程:AI应用成功的关键架构与实践指南
  • 钉钉小程序 - - - - - 小程序内打开OA文档链接
  • 空域属不属于自然资源?(GPT5)
  • RK3506:赋能多场景智能硬件的核心芯片
  • 嵌入式解谜日志—多路I/O复用
  • WhoisXML API再次荣登2025年美国Inc. 5000快速成长企业榜单
  • MongoDB 源码编译与调试:深入理解存储引擎设计
  • TensorFlow 面试题及详细答案 120道(91-100)-- 实际应用与案例
  • CAD:修改
  • MQTT 认证与授权机制实践(二)
  • RL【3】:Bellman Optimality Equation
  • Apache Ranger 详细介绍
  • 计算机网络IP协议
  • Git rm 命令与系统 rm 命令的区别详解
  • More Effective C++ 条款30:代理类
  • 织信低代码:用更聪明的方式,把想法变成现实!
  • MySQL数据库基础(DCL,DDL,DML)详解
  • 反序列化的学习笔记
  • Kafka 内存池MemoryPool 设计
  • 【论文阅读】FedsNet: the real‑time network for pedestrian detection based on RT‑DETR