当前位置: 首页 > news >正文

数据传输一致性保障:如何避免‘少数据’或‘脏数据’?

在做数据同步的时候,ETLCLoud一般通过库表输入与库表输出完成抽取数据和同步数据。

图片 1

而抽取数据到平台并推送数据到目标端这个过程时,数据都是存在平台所在服务器的内存中的,对于一些大表,内存不足以存储整张表的数据,这时就会使用平台自带的分页传输。

而分页传输,数据被分成多批传输到目标端,如果其中有一批数据输出出错,那么流程会直接终止,事务被回滚,而面对这种情况,我们可以在库表输出中配置

输出异常时跳过异常,并配置节点断言。

图片 2

图片 3

这样运行流程,即使有数据出错也不会停止流程,能够成功传输的数据还是正常输出。

图片 4

这时流程的运行记录会标记为警告(流程正常结束但是存在同步失败的数据)。

图片 6

检查目标表的确实没有传输失败的数据。

图片 5

根据日志处理了目标表的字段结构后,如何只同步失败的数据而不必同步全部数据呢?

一、出错数据如何同步

首先先确保库表输出配置了记录失败的数据。

图片 7

这样,流程同步失败的数据会存入到作为ETL平台系统数据库的MongoDB的库中。

配置一个这样的流程

图片 8

Mongo输入组件配置:

图片 9

查询条件添加过滤条件:

{

$and:[

{“P_TAG_STATUS”:1},

{“P_TAG_PROCESSSID”:“任务ID”}

]

}

图片 10

应用ID位置:

图片 11

任务ID为运行记录的任务ID:

图片 12

库表输出则配置目标库

运行流程进行失败数据传输:

图片 13

成功将失败数据进行同步。

二、如何去判断源表和目标表的数据是否一致

同步完数据后如何去判断源表和目标表的数据是否一致呢?

我们创建并设计一个流程

图片 2

图片 4

库表输入配置:

源表与目标表都是读取全量数据

图片 5

图片 6

双流数据值对比组件:

图片 7

日志输出的输出内容选包含变量的,因为对比结果存在变量里面

图片 8

运行流程进行数据对比

图片 10

打印结果compareResult为true证明两张表的内容一致。

三、当源表与目标表数据不一致要如何处理

当源表的数据与目标表数据不一致,可能是源端插入、更新、删除的数据都没有同步到目标端,这就可能导致目标表可能少了源表存在的数据、部分数据与源表不一致、多了源表不存在的数据。这种情况下,我们要对两张表进行数据对比,对比出差异数据,根据不同情况同步到目标表:

源表存在目标表不存在的数据:插入到目标表。

源表与目标表都存在但是部分数据不一致的数据:更新到目标表。

源表不存在目标表存在的数据:从目标表删除。

我们可以配置这样的流程进行处理:

图片 1

图片 2

双流增量运算配置

图片 3

图片 4

两个库表输入就分别全量读取源表与目标表数据。库表输出则选择目标表,将双流增量的数据同步到目标表

图片 5

本文详细介绍了在使用ETLCloud进行数据同步时,如何确保数据传输的一致性,主要分为三个部分:

容错与重试:通过配置“跳过异常”和节点断言,避免因部分数据错误导致整个同步任务失败,并将失败数据记录至MongoDB,便于后续精准重同步。

一致性校验:通过“双流数据值对比”组件,全量比对源表和目标表的数据,快速验证数据是否一致。

差异修复:当发现数据不一致时,利用“双流增量运算”组件自动识别差异类型(需新增、更新或删除),并生成相应的操作将目标表数据修复至与源表一致。

这套方法体系有效地解决了数据同步过程中可能出现的“少数据”和“脏数据”问题,保障了端到端的数据一致性。

http://www.dtcms.com/a/411238.html

相关文章:

  • Product Hunt 每日热榜 | 2025-09-26
  • 北京公司网站建设定制全国十大装修公司最有名的是
  • 鸿蒙开发入门经验分享:从零开始构建自己的HarmonyOS应用(ArkTS)
  • 解锁安全新维度:Cybersecurity AI (CAI) 助力提升网络安全效率!
  • FastAPI WebSocket 由浅入深的开发范例
  • 义乌免费做网站怎么创业呢白手起家
  • 网站维护运营好做吗建筑工程网络数据安全管理系统
  • 怎么制作外贸网站模板wordpress给会员发信
  • 西安跨境电商平台网站淘宝网网站设计分析
  • SSL 证书的重要性
  • 快速上手XXL-JOB
  • 分组交换总结
  • 亚马逊网站怎么做做网站一般注册商标哪个类
  • daily notes[54]
  • 机器学习——决策树详解
  • 万象EXCEL开发(六)excel单元格运算逻辑 ——东方仙盟金丹期
  • Redis数据结构和常用命令
  • 网站开发用什么开发无锡新吴区建设环保局网站
  • 深圳易捷网站建设计算机(网站建设与维护)
  • 智能微电网 —— 如何无缝集成分布式光伏 / 风电?
  • 苏州网站建设的公司万维网
  • 比较好的网站建设论坛wordpress纯静态化
  • 昆明云南微网站搭建西安网络建站
  • 怎么做二维码进入公司网站做网站推广优化哪家好
  • Java 中的代理模式
  • 网站 繁体 js汽车cms
  • 怀化 网站建设东海县做网站广告
  • 嘉兴网页制作网站排名企业网站建设用什么语言
  • 《录井工程与管理》——第六章 钻井参数录井
  • 视觉/深度学习/机器学习相关面经总结(3)(持续更新)