当前位置：首页 > news >正文

Debezium：一款基于CDC的开源数据同步工具

news 2025/7/10 10:52:23

Debezium 是由 Red Hat 开源的一种基于变更数据捕获（CDC）的分布式平台，专为实时捕获和传播数据库的变更事件而设计。Debezium 常见的使用场景包括：

实时数据集成：将数据库变更同步到数据仓库或数据湖，支撑实时分析。
维护缓存一致性：源头数据库变更时自动失效或者更新 Redis/Memcached 中的缓存条目。
微服务解耦：在单体应用拆分场景中，避免多系统“双写”一致性问题，通过 CDC 触发下游业务逻辑（如更新搜索索引、发送通知等）。
共享数据库：当多个应用共用同一个数据库的时候，一个应用提交的更改通常要被另一个应用感知到。Debezium 可以让每个应用直接监控数据库的更改，并且响应更改。
命令查询职责分离：在命令查询职责分离（CQRS）架构模式中，Debezium 捕获数据更改并且持久化到全序流里，然后供那些需要异步更新只读视图的服务消费。

系统架构

Debezium 提供了三种部署架构：Apache Kafka Connect、独立服务器、嵌入式引擎。

Apache Kafka Connect

大多数情况下使用 Apache Kafka Connect 部署 Debezium，如上图所示。其中：

Debezium 作为源端连接器，将变更记录发送给 Kafka；
目标连接器将记录从 Kafka 主题传播到其他系统。

例如，Debezium 提供 MySQL 或者 PostgreSQL 连接器分别用于捕获这两种数据库的变更。每个 Debezium 连接器都会建立一个对应的源端数据库连接：

MySQL 连接器使用客户端代码库来访问 binlog。
PostgreSQL 连接器从逻辑复制流读取。

Kafka Connect 作为独立的服务运行。

默认情况下，从一个数据库表中的更改被写入 Kafka 主题，主题名称与表名称对应。如果需要，可以通过配置 Debezium 的主题路由转换来调整目标主题名称。例如：

将记录路由到名称与表名不同的主题；
多个表的变更事件记录到一个主题中。

在 Apache Kafka 中保存事件记录后，Kafka Connect 生态中的不同连接器可以将记录传输到其他系统和数据库，例如 Elasticsearch、数据仓库和分析系统或者缓存中。

独立服务器

另外一种部署方式就是使用 Debezium 服务器，如下图所示：

用户可以配置 Debezium 服务器使用源端连接器捕获数据库变更，然后将其序列化成不同的格式（例如 JSON 或者 Apache Avro），然后将结果发送给各种消息平台，例如 Redis、Amazon Kinesis,、Google Cloud Pub/Sub 或者 Apache Pulsar。

嵌入式引擎

这种部署方式不需要依赖 Kafka Connect，而是直接将 Debezium 连接器作为一个代码库嵌入 Java 应用程序中，捕获数据变更，提供给应用程序使用，或者将数据流转给消息平台。

功能特性

Debezium 提供的主要功能如下：

支持各种源端数据库，包括 MySQL、MariaDB、MongoDB、PostgreSQL、Oracle、SQL Server、Db2、Cassandra、Vitess、Spanner、Informix 等；
可以捕获完整的数据变更，并且只捕获已提交的事务，避免中间状态或回滚操作，保证数据一致性。
通过读取数据库事务日志而非轮询表，确保高性能和低侵入性，不影响源库性能。例如，对于 MySQL 或者 PostgreSQL，延迟在毫秒级；
不需要对数据模型进行修改，例如增加 Last Updated 字段；
支持数据删除操作的捕获；
基于 Java 开发，资源占用低，支持分布式部署和高可用架构。通过 Kafka Connect 框架横向扩展，应对大数据量同步需求；
支持模式、表、字段级别的过滤，可以指定捕获的包含列表或者排除列表；
支持指定字段的数据脱敏，保护敏感信息；
支持消息转换，包括路由、筛选、扁平化等；
大多数连接器都可以通过 JMX 进行监控。