当前位置: 首页 > news >正文

Flink 水印(Watermark)最佳实践指南

Flink 水印(Watermark)最佳实践指南

目录

  1. 水印基础概念
  2. 案例分析:水印污染与精确计算
    • 案例1:源头全量水印(污染模式)
    • 案例2:Filter后独立水印(精确模式)
    • 案例3:Rebalance对分区水印的影响
  3. 最佳实践总结
  4. 完整代码模板
  5. 性能对比与监控
  6. 常见问题FAQ

1. 水印基础概念

什么是Watermark?

  • Watermark = 当前已处理数据最大事件时间 - 允许的延迟时间
  • 作用:告诉Flink "从这个时间点之后的数据都已到达,可以安全触发窗口计算"
  • 核心公式:watermark = max(eventTime) - allowedLateness

关键概念

text

Event Time(事件时间)→ 业务发生时间

Watermark(水印)→ 事件时间 + 延迟容忍

Window Trigger(窗口触发)→ watermark >= windowEndTime

水印生成策略

// 常见策略WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(5)) // 允许5秒乱序WatermarkStrategy.forMonotonousTimestamps() // 严格递增WatermarkStrategy.noWatermarks() // 无水印(延迟计算)

2. 案例分析:水印污染与精确计算

案例1:源头全量水印(污染模式)❌

问题场景:不同业务类型数据混合生成水印,导致窗口提前触发,数据漏算

java

KafkaSource<Event> source = KafkaSource.<Event>builder().setWatermarkStrategy(WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(5)).withTimestampAssigner(e -> e.eventTime)) // 全量WM:order+click污染!.build();stream.filter(e -> e.type.equals("order")).window(TumblingEventTimeWindows.of(Time.seconds(10))).sum();// stream.filter(e -> e.type.equals("click")) // 同理会漏算
http://www.dtcms.com/a/521767.html

相关文章:

  • MATLAB基于灰色聚类-正态云的地铁牵引系统健康状态综合评估
  • 滨州北京网站建设价格公司的宣传网站应该怎么做
  • 做任务兼职赚钱的网站android安卓软件下载
  • DOM 改变节点
  • 做网站公司找意向客户杭州装饰装潢公司10大品牌
  • 学网站建设需要什么大同工程造价信息网
  • 中、英文摘要撰写规范指导
  • scratch金字塔俯视图 2025年6月scratch四级真题 中国电子学会 图形化编程 scratch四级真题和答案解析
  • 注册个人网站域名topasp网站程序下载
  • AI入门 - 什么是ARM SME2 AI加速指令集
  • ARM Cortex-M 中的断点单元FPB是什么?
  • 常州建行网站网站都是h5响应式
  • 织梦怎么制作手机网站ns解析网站
  • RHCSE第三节----时间时钟ntp
  • 建设银行积分兑换商城官方网站自己搭建充值平台
  • Redis数据结构
  • ppt网站源码杭州网原创
  • wordpress怎么关注站点网页小程序
  • S8 链式栈
  • 中国免费建站网河间网站建
  • Datawhale25年10月组队学习:math for AI+Task4解析几何
  • 不干净的网站做性南京做网站企业
  • 龙虎榜——20251023
  • 矽塔 SA8206A 输入耐压36V 过流保护阈值1.4A 过压/过流保护芯片 SOT-23
  • seo如何提高网站排名做网站框架
  • 文章博客媒体网站模板怎样给自己的网站做防红连接
  • Flow Matching 时序任务:分布生成与多步动作序列的关联解析
  • 石家庄电商网站排名佛山市网站建设企业
  • 电子商务网站建设重点难点wordpress群组插件
  • 网站建设费税率网页传奇手游官网