【Alertmanager】Alertmanager告警路由,告警静默,告警抑制,高可用的实现
✨✨ 欢迎大家来到景天科技苑✨✨
🎈🎈 养成好习惯,先赞后看哦~🎈🎈
🏆 作者简介:景天科技苑
🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。
🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi,flask等框架,云原生k8s,Prometheus监控,linux,shell脚本等实操经验,网站搭建,数据库等分享。所属的专栏:Prometheus监控系统零基础到进阶
景天的主页:景天科技苑
文章目录
- Alertmanager告警路由,告警静默,告警抑制,高可用
-
- 一、AlertManager告警路由
-
- 1.1 告警路由介绍
- 1.2 告警路由实践
-
- 1)配置AlertManager,添加子路由规则
- 1.2 告警路由实践
-
- 1)配置AlertManager,添加子路由规则
- 2)检查语法,并重新加载AlertManager
- 1.3 告警路由验证
-
- 1)触发mysql和redis的告警,验证企业微信-DBA团队是否能收到告警消息
- 2)触发node相关的告警,验证企业微信-OPS团队是否能收到告警消息
- 3)触发nginx相关的告警,验证钉钉运维团队是否能收到告警消息
- 二、AlertManager告警静默
-
- 2.1 告警静默介绍
-
- 1)先告警后静默
- 2)先配置静默
- 2.2 配置告警静默
-
- 1、先告警后静默
- 2、先配置静默
- 三、AlertManager告警抑制
-
-
- 3.1 告警抑制介绍
- 3.2 告警抑制场景-1
-
- 1)模拟节点故障,并且模拟因为节点故障从⽽造成的其他级联故障;
- 2)正常情况下我们会收到3条告警消息,但最为重要的就是节点Down机,其他告警消息都是因为节点Down而产生的级联故障
- 3.3 告警抑制场景-2
-
- 1)假设我们运行了MySQL主从,我们的告警规则如下:
- 2)接下来,模拟主库异常和从库异常,看是否会收到两条告警消息。
- 3)配置抑制规则,当主库出现故障,则抑制从库的故障
- 4)模拟主库和从库都告警,验证最终是否仅收到主库的告警,而抑制从库的告警。
-
- 四、AleartManager高可用
-
- 4.1 AlertManager传统架构
- 4.2 AlertManager高可用架构
- 4.3 AlertManager高可用配置实践
-
- 1)将jigntian01节点上的,AlertManager拷贝止其他两个节点
- 2)在所有节点上,准备 alertmanager_ha.service 的启动配置文件
- 3)检查alertmanager集群状态
- 4)配置Prometheus对接多个AlertManager实例
- 4.4 AlertManager高可用结果验证
-
- 1)测试集群同步状态,当在一个节点上创建了一个静默(Silence)记录,其他节点的监控页面能够即时显示该静默的信息
- <