当前位置: 首页 > news >正文

阿里云 RocketMQ 5.0 可观测最佳实践

阿里云 RocketMQ 5.0 介绍

阿里云 RocketMQ 5.0 产品是阿里云基于 Apache RocketMQ 构建的低延迟、高并发、高可用、高可靠的分布式消息中间件。和历史版本产品相比,RocketMQ 5.0 在规格弹性能力、可观测性能力、集成易用性和运维便捷性等方面进行全面增强,帮助开发者以更低的门槛实现业务开发和集成。

对阿里云 RocketMQ 5.0 进行监控观测是保障消息系统稳定可靠运行的必要手段,通过实时监控消息堆积、生产消费延迟、TPS/QPS、Broker/Consumer 状态等关键指标,能够及时发现性能瓶颈、异常波动或故障风险,帮助用户快速定位和解决问题,确保消息不丢、不重、不延迟,从而支撑业务的高可用性、连续性与数据一致性。

观测云

观测云是一款专为 IT 工程师打造的全链路可观测产品,它集成了基础设施监控、应用程序性能监控和日志管理,为整个技术栈提供实时可观察性。这款产品能够帮助工程师全面了解端到端的用户体验追踪,了解应用内函数的每一次调用,以及全面监控云时代的基础设施。此外,观测云还具备快速发现系统安全风险的能力,为数字化时代提供安全保障。

采集方法

  1. 登录观测云控制台
  2. 点击【集成】菜单,选择【云帐号管理】
  3. 点击【添加云账号】,选择【阿里云】,填写界面所需的信息,如之前已配置过云账号信息,则忽略此步骤

  1. 点击【测试】,测试成功后点击【保存】,如果测试失败,请检查相关配置信息是否正确,并重新测试
  2. 点击【云账号管理】列表上可以看到已添加的云账号,点击相应的云账号,进入详情页
  3. 点击云账号详情页的【集成】按钮,在未安装列表下,找到阿里云 RocketMQ 5.0,点击【安装】按钮,弹出安装界面安装即可。

关键指标

实例(Instance)

监控指标MetricName统计方法单位
实例API调用TPSInstanceApiCallTpsSumcount/s
5.0系列实例存储大小InstanceStorageSizeSumbyte
5.0系列实例公网下行流量带宽InstanceInternetFlowoutBandwidthMaxbyte/s
5.0系列实例发送API调用TPS峰值InstanceSendApiCallTpsMaxcount/s
5.0系列实例消费API调用TPS峰值InstanceReceiveApiCallTpsMaxcount/s
公网实例每秒活跃连接数InstanceActiveConnectionAverage、Minimum、Maximumcount/s
公网实例每秒入bit数InstanceTrafficRXAverage、Minimum、Maximumbit/s
公网实例每秒出bit数InstanceTrafficTXAverage、Minimum、Maximumbit/s
公网实例每秒丢失出bit数InstanceDropTrafficTXAverage、Minimum、Maximumbit/s
公网实例每秒丢失入bit数InstanceDropTrafficRXAverage、Minimum、Maximumbit/s
公网实例网络流出带宽使用率InstanceTrafficTXUtilizationAverage、Minimum、Maximum%
公网实例网络流入带宽使用率InstanceTrafficRXUtilizationAverage、Minimum、Maximum%

生产者(Producer)

监控指标MetricName统计方法单位
Producer(Instance)每分钟发送消息数量SendMessageCountPerInstanceSumcount/min
Producer(Topic)每分钟发送消息数量SendMessageCountPerTopicSumcount/min
每分钟(Instance)发送被限流次数ThrottledSendRequestsPerInstanceSumcount/min
每分钟(Topic)发送被限流次数ThrottledSendRequestsPerTopicSumcount/min

消费者(Consumer)

监控指标MetricName统计方法单位
Consumer(Instance)每分钟接收消息数量ReceiveMessageCountPerInstanceSumcount/min
Consumer(GroupId)每分钟接收消息数量ReceiveMessageCountPerGidSumcount/min
Consumer(GroupId&Topic)每分钟接收消息数量ReceiveMessageCountPerGidTopicSumcount/min
每分钟(Instance)消费被限流次数ThrottledReceiveRequestsPerInstanceSumcount/min
每分钟(GroupId)接收被限流次数ThrottledReceiveRequestsPerGidSumcount/min
每分钟(GroupId&Topic)接收被限流次数ThrottledReceiveRequestsPerGidTopicSumcount/min
消息堆积量(GroupId)ConsumerLagSumcount
消息堆积量(GroupId&Topic)ConsumerLagPerGidTopicSumcount
消息处理延迟时间(GroupId)ConsumerLagLatencyPerGidMaxms
消息处理延迟时间(GroupId&Topic)ConsumerLagLatencyPerGidTopicMaxms
已就绪消息排队时间(GroupId&Topic)ReadyMessageQueueTimePerGidTopicMaxms
已就绪消息量(GroupId)ReadyMessagesSumcount
已就绪消息量(GroupId&Topic)ReadyMessagesPerGidTopicSumcount
每分钟转为死信状态的消息量(GroupId)SendDLQMessageCountPerGidSumcount/min
每分钟转为死信状态的消息量(GroupId&Topic)SendDLQMessageCountPerGidTopicSumcount/min

更多指标可查阅阿里云 RocketMQ 5.0 产品文档,点击这里。

场景视图

登录观测云控制台,点击「场景」 -「新建仪表板」,输入 “阿里云 RocketMQ 5.0”, 选择 “阿里云 RocketMQ 5.0监控视图”,点击 “确定” 即可添加视图。

RocketMQ 5.0列表可以查看对应区域RocketMQ 5.0开通信息

实例(Instance)分组,可以看到RocketMQ 5.0实例相关指标

生产者(Producer)分组,可以看到RocketMQ 5.0的生产者相关指标

消费者(Consumer)分组,可以看到RocketMQ 5.0消费者相关指标

监控器(告警)

观测云内置了监控器模板,可以选择从模版创建监控器,并开启适合业务的监控器以及时通知相关成员关注问题,触发条件、频率等信息可以依据实际业务进行调整。

登录 观测云控制台,点击「监控」 -「新建监控器」,选择官方模版库,输入 “RocketMQ 5.0”, 选择对应的监控器,点击 “确定” 即可添加。

实例发送API调用TPS峰值告警

简要描述:RocketMQ 版 5.0实例规格明确规定了消息收发基础规格TPS上限,即消息收发API调用频率。若实例消息收发API调用TPS峰值超过规格限制,会导致实例被限流。阿里云建议设置为实例发送TPS峰值上限的70%。例如消息发送TPS峰值上限为5000,则阈值设置为3500。

告警配置:

告警效果:

消息堆积量告警

简要描述:云消息队列 RocketMQ 版支持按照ConsumerGroup粒度监控消息堆积量,可以用来预警下游消费堆积故障场景。业务侧上线后根据可容忍的经验评估报警阈值。

告警配置:

告警效果:

配置限流次数告警

简要描述:云消息队列 RocketMQ 版支持将指定实例触发限流的事件作为监控项,通过对限流次数的监控,可以帮助您了解当前业务的受损情况。业务侧上线后根据可容忍的经验评估报警阈值。

告警配置:

告警效果:

总结

通过将阿里云 RocketMQ 5.0 的原生监控数据集成到观测云平台,用户可以实现更全面、更高效的数据监控与分析。观测云作为一个强大的可观测性平台,能够将阿里云 RocketMQ 5.0 监控数据与自身丰富的数据处理和可视化能力相结合。用户不仅可以实时查看 RocketMQ 5.0 的运行状态,如消息堆积、发送调用API峰值超过阈值、限流等关键指标,还可以通过观测云的智能告警功能,快速发现并响应潜在的性能问题或异常情况。此外,观测云支持多种数据源的整合,能够将 RocketMQ 5.0 数据与其他云服务或本地应用的监控数据进行关联分析,帮助用户从全局视角洞察系统的健康状况,从而更好地优化资源配置、提升系统稳定性,并为后续的运维决策提供有力支持。

http://www.dtcms.com/a/478631.html

相关文章:

  • 新手400单词+文章阅读理解
  • 从零构建鸿蒙高效数据恢复工具:完整实战教程与可运行Demo
  • Gecko SDK从入门到提高(3)
  • 南乐县住房和城乡建设局网站室内装修设计说明
  • 芦苞建网站公司竞价推广直通车
  • Windows Linux 操作系统分区管理
  • 网站做友链有什么用企业网站开发费用
  • 2025年下半年加密货币市场展望:机遇与挑战并存
  • OpenCV(九):NumPy中的矩阵的检索与赋值
  • 保定哪家做网站专业长沙的在线商城网站建设
  • 加密货币与金融体系融合:趋势洞察与未来展望
  • “icoin如何重新定义交易所的安全与体验”
  • Spring Boot微服务架构详解
  • 鸿蒙:将项目的rawfile目录下全部文件拷贝到app沙箱目录
  • SQL sever数据库--第一次作业
  • 青春励志剧《我的鸵鸟先生》杀青,陈若尧唱演结合,演绎反派摇滚歌手
  • CCF-GESP 等级考试 2025年9月认证C++四级真题解析
  • 旅游网站建设水平评价做网站总结
  • 网站模版建设工具中国域名拍卖网
  • 做旅游网站的引言自字网站建设教程
  • [工作流节点26] 流程性能优化与大规模并发场景实战指南
  • 十二、kubernetes 1.29 之 存储 Volume、pv/pvc
  • 精品网站建设价格网页制作的软件
  • 做卫浴软管的网站网站做好后怎么更新内容
  • 如何在合法合规范围内获取 sitekey 参数?有哪些公开/私有获取途径
  • JDK17先进特性
  • Spring Boot接入链路追踪(Micrometer Tracing+Zipkin) 一
  • Jenkins Share Library教程 —— 开发入门
  • SpringBoot读取自定义格式的Nacos配置
  • WordPress建站怎么交付青岛seo网络推广