当前位置: 首页 > news >正文

记录seatunnel排查重复数据的案例分析

文章目录

      • 背景
      • 分析
        • 检查现象
        • 检查B集群是否有异常,导致重复消费的
        • 分析同步任务
      • 修复问题
        • 发现flink job 一直报异常
        • 修复问题

背景

使用seatunnel 同步数据从A 集群kafka 同步到B集群kafka,现象是发现两边数据不一致,每天10w级别会多几十条数据

分析

检查现象

因为两侧kafka的数据同时也会写es,先检查两侧es的数据, 通过二分发现,B集群es数据确实比A集群多,多的数据检查发现是重复的数据,有记录被写了多次

检查B集群是否有异常,导致重复消费的

检查日志发现有没有写入失败,导致一批数据被重复消费的,从日志来看是没有的

分析同步任务

检查seatunnel 任务,发现没有配置semantics ,然后发又检查了客户现场的flink job ,确定有经常任务会有环境导致的重启现象,应该问题就是这了

sink {kafka {topic = "test_topic"bootstrap.servers = "localhost:9092"format = jsonkafka.request.timeout.ms = 60000semantics = EXACTLY_ONCEkafka.config = {acks = "all"request.timeout.ms = 60000buffer.memory = 33554432}}

修复问题

加上 semantics = EXACTLY_ONCE

sink {kafka {topic = "test_topic"bootstrap.servers = "localhost:9092"format = jsonkafka.request.timeout.ms = 60000kafka.config = {acks = "all"request.timeout.ms = 60000buffer.memory = 33554432}}
发现flink job 一直报异常

最后问题定位到这,官方bug导致,升级最新版本修复
sink 在一致性语义情况下报异常

修复问题

只修改sink一致性语义是不够的,还要消费b 集群kafka 的客户端的事务配置是,read_commited的

相关文章:

  • 第33周JavaSpringCloud微服务 实现电商项目
  • uni-app 开发企业级小程序课程
  • AI音乐解决方案:1分钟可切换suno、udio、luno、kuka等多种模型,suno风控秒切换 | AI Music API
  • LVGL学习(一)(IMX6ULL运行LVGL,lv_obj_t,lv_obj,size,position,border-box,styles,events)
  • Lateral 查询详解:概念、适用场景与普通 JOIN 的区别
  • JWT算法详解
  • iframe下系统访问跨域问题解决办法
  • 统计图表ECharts
  • vue vite开发时保留console.log打包完后依然想保留某个文件夹下的console.log方便以后的观察
  • Linux的基础的操作指令
  • 关于ORM
  • 辛格迪客户案例 | 上海科济药业细胞治疗生产及追溯项目(CGT)
  • Qt-创建模块化.pri文件
  • Windows BilibiliHistoryFetcher-v1.3.2-v1.2.1-开源B站历史记录管理工具[支持批量管理下载]
  • 01_Flask快速入门教程介绍
  • OneClicker脚本自动运行工具
  • 白嫖腾讯的H20!!!同时部署RVC模型
  • 堡垒机和跳板机之区别(The Difference between Fortress and Springboard Aircraft)
  • 一文详解卷积神经网络中的卷积层和池化层原理 !!
  • 量化交易 - RSRS(阻力支撑相对强度)- 正确用法 - 年均收益18%
  • “三桶油”一季度净赚966亿元:业绩分化加剧,有人欢喜有人愁
  • 中国代表:美“对等关税”和歧视性补贴政策严重破坏世贸规则
  • 证监会:坚决拥护党中央对王建军进行纪律审查和监察调查的决定
  • 五大光伏龙头一季度亏损超80亿元,行业冬天难言结束
  • 南京106亿元成交19宗涉宅地块:建邺区地块楼面单价重回4.5万元
  • 中国海警位中国黄岩岛领海及周边区域执法巡查