当前位置：首页 > news >正文

详解kafka基础(一)

news 2025/8/27 7:34:34

文章目录

- - - 0. kafka主要构成组件：
    - 1. 主题(Topics)
    - 2.分区（Partitions）
    - 3.Brokers
    - 4. 复制（Replication）：kafka通过复制实现容错
    - 5.消费方（producers）
    - 6.消费方(consumers):读取消息从topic,响应事件流
    - 7. Confluent Schema Registry：
    - 8.kafka connect：集成外部系统到kafka集群
    - 9.Stream Processing
    - 10.Confluent 商业kafka介绍

0. kafka主要构成组件：

在这里插入图片描述

1. 主题(Topics)

topics以日志的形式存储数据
在这里插入图片描述
以接受的顺序存储消息

以主题组织数据

从其他主题派生主题

在这里插入图片描述

topic不是一个队列，是一条日志，是有序不可变的记录
在这里插入图片描述

kafka 消息细节（消息数据结构）
在这里插入图片描述

key:是一个唯一约束的ID

日志保存和压缩(log retention and compaction)：
在这里插入图片描述

2.分区（Partitions）

在这里插入图片描述

消息以无序的方式进入分区（没有key）,采用消息以轮询的方式进入分区

在这里插入图片描述

消息以有序的方式进入分区（有key),通过采用hash取模操作,相同的key总被写到同一个分区
在这里插入图片描述

3.Brokers

在这里插入图片描述

kafka4.0采用KRaft(基于raft协议)，协调管理元数据，不再采用zookeeper
在这里插入图片描述

4. 复制（Replication）：kafka通过复制实现容错

kafka复制分区跨brokers
在这里插入图片描述
如果kafka leader broker 挂掉，集群会在剩余的分区中选择新的leader

kafka 客户端从leader进行读写消息
在这里插入图片描述

为了性能，kafka客户端，可以从follwers进行读取数据
在这里插入图片描述

5.消费方（producers）

生产方发送消息到kafka
在这里插入图片描述

在这里插入图片描述

6.消费方(consumers):读取消息从topic,响应事件流

在这里插入图片描述

偏移量追踪（偏移量提交）:offset commit：
kafka会记录每条已消费消息的偏移量;它能确保如果消费者离线，还能从上次中断的地方继续处理。这些偏移量会提交回 Kafka 本身，并存储在一个内部主题中。如果消费者崩溃后重新启动，它会读取自己最后提交的偏移量，继续处理而不会丢失数据。
在这里插入图片描述

消费组伸缩（scaling with Consumer Groups）:
在这里插入图片描述
消费方重新平衡（Rebalancing）:

为了扩展处理能力，Kafka 支持消费者组。同一组中的所有消费者共同承担从topic分区读取数据的工作。Kafka会将每个分区分配给该组中的一个消费者 , 同一组中不会有两个消费者从同一个分区读取数据。这实现了并行处理：

如果一个主题有三个分区，且组中有三个消费者，则每个消费者会独立处理来自一个分区的消息。
如果添加更多消费者，Kafka 会自动在它们之间重新平衡分区。
如果某个消费者发生故障，其分区将重新分配给剩余的消费者，以维持处理。

kafka的基于日志设计即消费数据不删除数据。多个消费者在不同的消费组，可以读取相同的消。这也就允许独立的应用处理相同的事件流不冲突。

消费者从 Kafka 中检索数据并进行处理。通过消费者组，可以实现水平扩展、并行处理并保证容错能力，同时能保持每个分区内消息的完整性和顺序。

7. Confluent Schema Registry：

具有结构化格式的消息被称作schema
提供了一个元数据服务层.是一个独立的服务，存储和管理schema

Schema Registry工作机制：
在这里插入图片描述
生产者发送消息时，首先会通过REST API 联系 Schema Registry 来注册schema（如果是新的schema）。生产者会在消息中包含schema ID，然后再将其发送到 Kafka 主题。此 ID 允许消费者在收到消息时查找schema，确保他们知道如何正确地反序列化和翻译消息。