当前位置: 首页 > news >正文

架构思维:通用架构模式_系统监控的设计

文章目录

  • 引言
  • 什么是监控
  • 三大常见监控类型
    • 1. 次数监控
    • 2. 性能监控
    • 3. 可用率监控
  • 落地监控
    • 1. 服务入口
    • 2. 服务内部
    • 3. 服务依赖
  • 监控时间间隔的取舍
  • 小结

在这里插入图片描述


引言

架构思维:通用架构模式_从设计到代码构建稳如磐石的系统
架构思维:通用架构模式_稳如老狗的SDK设计最佳实践

架构思维:通用架构模式_怀疑下游的设计思路与最佳实践

我们以“防备上游、做好自己、怀疑下游”的准则,分别从系统设计、部署和代码层面,介绍了如何构建高可用后台系统。但再完善的防护也难保万无一失,真正的挑战在于在用户感知之前,第一时间发现问题。

接下来我们将从监控的角度出发,教你如何设计微服务监控,帮助快速、自动地暴露故障,保障系统稳定运行。

什么是监控

监控是指对系统运行状态数据持续审查,并设定阈值,对超出阈值的指标发出告警的机制。如下所示,监控数据通常以 时间(X 轴)指标值(Y 轴) 的曲线图形式展示:

在这里插入图片描述

X 轴:时间间隔(秒或分钟)
Y 轴:该间隔内汇聚的指标(数量、平均值、最大值等)


三大常见监控类型

1. 次数监控

用于统计某个事件或方法的调用次数,比如接口被调用次数、某段逻辑执行次数。

在这里插入图片描述

图 2:次数监控示例
Y 轴:指定间隔内总调用次数

2. 性能监控

关注接口或依赖调用的延迟,常用指标有:

  • 平均耗时(AVG) = 总耗时 / 调用次数
  • 最大耗时(Max) = 区间内单次最长耗时
  • TPn(如 TP999)= 排序后第 n‰ 位置的耗时值

通常将 Avg、Max、TP99X 三者合并展示:

> **图 3:性能监控示例**

3. 可用率监控

计算指定区间内业务执行成功的比例。

在这里插入图片描述

在可用率判断中,要区分:

  • 业务异常(如参数校验失败):不算失败,不降可用率
  • 非业务异常(如网络超时、空指针):算失败,需降可用率并报警

阈值设置需结合接口级别和 SLA,核心接口可设 100%,其他接口可适当放宽。


落地监控

业务

在这里插入图片描述

1. 服务入口

  • 次数监控

    1. 基于压测瓶颈设阈值告警,并配合限流
    2. 按调用方维度统计,快速定位流量异常来源
    3. 同环比监控,自动识别突增
  • 性能监控

    1. 必要时只告警 Avg、Max、TP999(或 TP9999)
    2. 按调用方分层监控,排查使用差异
    3. 基于入参(如批量大小)分段监控,辅助优化策略
  • 可用率监控

    1. 接口级与调用方级双重告警
    2. 按业务/非业务异常判定成功与否
    3. 阈值分级:重要接口近乎 100%,普通接口可降至 95%

2. 服务内部

  • 聚焦核心可疑方法,避免监控点过多导致告警疲劳
  • 监控 JVM(Young/Full GC、堆内存使用)、RPC 线程池剩余数、进程存活状态
  • 机器层面:CPU、内存使用率与负载(Load)监控

3. 服务依赖

在这里插入图片描述

  • 对每个下游依赖统一埋点监控(可用率、性能、次数)
  • 注意解析 RPCResult 等包装返回,防止“隐性”失败漏报
  • Java 应用可通过 AOP 或框架拦截(如 MyBatis Interceptor)统一实现

监控时间间隔的取舍

  • 秒级监控最优,能最快暴露故障
  • 但存储成本高(1s 数据量是 1min 的 60 倍)
  • 若系统同时支持秒级和分钟级,生产环境推荐秒级,测试或存储受限时可降至分钟级

小结

  • 三大基础指标:次数、性能、可用率
  • 三层架构落地:入口、内部、依赖
  • 补充监控:JVM、线程池、进程、机器资源
  • 阈值与时序:结合 SLA、接口重要度,优先秒级

在这里插入图片描述

相关文章:

  • 《微机原理与接口技术》第 5 章 汇编语言程序设计
  • 解决LangChain4j报错HTTP/1.1 header parser received no bytes
  • OJ项目测试
  • C++类和对象--中阶
  • sql语句面经手撕(定制整理版)
  • 收集飞花令碎片——C语言分支与循环语句(上)
  • 如何避免 JavaScript 中常见的闭包陷阱?
  • Nginx stream模块是连接级别的负载均衡
  • 序列检测器
  • 【002】renPy android端启动流程分析
  • Docker从0到1:入门指南
  • 破解 Qt QProcess 在 Release 模式下的“卡死”之谜
  • Linux基础命令之目录管理——了解各种操作文件目录的命令,万字教学,超详细!!!(1)
  • windows防火墙
  • 特伦斯折叠重锤V70:实现专业演奏,从这里开始
  • 【Vue3】使用vite创建Vue3工程、Vue3基本语法讲解
  • JavaScript中的数字谜题:为何0.3的二进制不精确,浏览器却显示正确?
  • 07_SpringBoot2集成Redis连接失败
  • Git日志信息
  • nginx-整合modsecurity做waf
  • 北洋“修约外交”的台前幕后——民国条约研究会档案探研
  • 大外交|中美联合声明拉升全球股市,专家:中美相向而行为世界提供确定性
  • 张笑宇:物质极大丰富之后,我们该怎么办?
  • 有关部门负责人就《新时代的中国国家安全》白皮书答记者问
  • 巴基斯坦全国航班仍持续延误或取消
  • 俄总统新闻秘书:普京提议谈判表明俄寻求和平解决方案意愿