Flink 运维监控与指标采集实战
一、引言:实时任务为什么必须监控?
在实时任务中,任务失败、数据延迟、资源瓶颈往往并非由明显的代码异常引发,而是隐蔽地潜藏在:
-
Kafka 积压无告警
-
Flink Checkpoint 卡顿却无人知晓
-
反压、TaskManager 内存 OOM 未实时感知
为了保障业务 SLA、高可用与可观测性,构建完善的 Flink 运维监控体系势在必行。
二、Flink 自带的指标体系概览
Flink 提供了丰富的内部指标(Metrics System),可通过 MetricsReporter 采集至外部系统(如 Prometheus、InfluxDB、JMX 等):
指标类别 | 示例 | 含义 |
---|---|---|
Checkpoint 指标 |