系统稳定性建设
参考:万字长文浅谈系统稳定性建设
文章围绕系统稳定性建设展开,结合京东在 618 前的准备工作,从后端研发视角阐述了研发阶段和上线阶段的稳定性建设要点,还涉及线上问题的应对方法。
- 背景
- 京东实践:618 前夕通过军演压测、故障演练等检测系统稳定性,以应对高可用、高性能、高并发挑战。
- 重要性:稳定性是业务发展的基础,贯穿研发全流程(需求、研发、测试、上线、运维),涉及多部门协作。
- 文章重点:聚焦后端研发的研发和上线阶段,探讨稳定性建设策略。
- 研发阶段
- 技术方案
- 评审:技术文档评审需架构师、研发、测试、产品及上下游系统研发人员参与,以确保方案与需求对齐,减少隐患。评审可采用提问方式,设计人应开放心态采纳建议。
- 关注点:遇到问题先对标最佳实践,遵循奥卡姆剃刀原理简化方案。技术方案要兼顾功能、架构、性能、质量和安全,打造高可用系统。常用方法包括限流(如计数器、滑动时间窗口等算法)、熔断降级(熔断防下游拖垮,降级分人工和自动)、超时(设置合理时间,遵循漏斗原则)、重试(限制次数,区分读写接口
- 技术方案