当前位置：首页 > news >正文

Kafka文件存储机制

news 2025/8/19 11:23:12

Topic是逻辑上的概念，而partition是物理上的概念，每个partition对应于一个log文件，该log文件中存储的就是Prodcuer生产的数据，Producer生产的数据会被不断追加到该log文件末端，为防止log文件过大导致数据定位效率低下，Kafka采取了分片和索引机制，将每个partition分为多个segment，每个segment包括：".index文件"、".log"文件和.timeindex等文件，这些文件位于一个文件夹下，该文件夹的命名规则为：topic名称+分区序号，例如first-0，（server.properties文件里面log.dirs的路径下可以找到该文件夹）

一个topic分为多个partition

一个partition分为多个segment

一个segment由如下部分组成：

.log 日志文件（存储实际数据）
.index 偏移量索引文件
.timeindex 时间戳索引文件
其他文件

说明：index和log文件以当前segment的第一条消息的offset命名

这里的配置如下：

在这里插入图片描述

查看文件：
在这里插入图片描述

查看topic为four，0号分区的数据

在这里插入图片描述

直接查看log日志和index文件是乱码
可以通过工具查看index和log信息

kafka-run-class.sh kafka.tools.DumpLogSegments --files 00000000000000000000.index

在这里插入图片描述

注意：
index为稀疏索引，大约每往log文件写入4kb数据，会往index文件写入一条索引，参数log.index.interval.bytes默认为4kb

index文件中保存的offset为相对offset，这样能确保offset的值所占空间不会过大，因此能将offset的值控制在固定大小

根据目标offset定位segment文件
找到小于等于目标offset的最大offset对应的索引项
定位到log文件
向下遍历找到目标Record

创建topic

在这里插入图片描述

创建生产者：

在这里插入图片描述

创建生产者：

在这里插入图片描述
生产并消费数据

在这里插入图片描述

查看数据：

在这里插入图片描述

查看全文

http://www.dtcms.com/a/338098.html

录音转文字，如何做到“快、准、狠“多格式通吃？

自学中医笔记（二）

大模型对齐算法(四): DAPO,VAPO,GMPO,GSPO, CISPO，GFPO

如何平衡电竞酒店和高校宿舍对AI云电竞游戏盒子的不同需求？

【Python】Python 多进程与多线程：从原理到实践

NVIDIA CWE 2025 上海直击：从 GPU 集群到 NeMo 2.0，企业 AI 智能化的加速引擎

软件定义汽车---创新与差异化之路

C/C++ 中 str、str、*str 在指针语境下的具体含义（以 char* str 为例）：

深化中东战略承诺，联想集团宣布在利雅得设区域总部

wait / notify、单例模式

【深度学习基础】PyTorch Tensor生成方式及复制方法详解

【每日一题】Day 7

Linux——进程间、线程间的通信

【C++】 using声明与 using指示

《彩色终端》诗解——ANSI 艺术解码(DeepSeek)

C++设计模式：建造者模式

《若依》权限控制

ESP32小智-语音活动(VAD)检测流程

Pytorch GPU版本安装保姆级教程

【Python面试题】描述一次解决内存泄漏的过程。如何用tracemalloc或者objgraph定位问题？什么情况下会用__slots__?

【领码课堂】AI写码不再“盲跑”，方案先行，自动化高效落地

BOSS直聘招聘端AI辅助自动化技术研究

某储备土地前期开发项目控制保护区桥梁自动化监测

8.19 note

HashMap：源码

OpenLayers 入门指南【七】：加载自定义控件

部署耐达讯自动化Profibus转光纤方案，变频器通信从此告别‘掉线焦虑’！“

Next.js数据获取

飞算JavaAI智慧文旅场景实践：从景区管理到游客服务的全链路系统搭建

无人机激光测距技术应用与挑战

相关文章：