当前位置: 首页 > news >正文

Paimon(数据湖框架)概述

文章目录

  • 一、数据湖
  • 二、什么是Paimon
  • 三、Paimon中的数据存储格式
  • 四、Paimon的核心特性
  • 五、Paimon的大规模实时更新
  • 六、LSM数据结构的核心思想


一、数据湖

数据湖就是:一种能够满足海量存储和海量分析的系统架构方案(不是数据库,也不是技术架构,是一种概念、一种方案和思路)

其中HDFS实现了海量数据存储,Spark、MR、Flink等实现了海量数据分析

所以说,Hadoop生态本质上就是数据湖最合适的实现方案

二、什么是Paimon

Paimon是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力

Paimon本质上还是使用Spark以及Flink计算引擎处理数据,处理流程也不变,变化的地方在于,Paimon提供丰富的 API 用于数据存储和管理,包括Flink API、Spark API、Java API;也就是说在存储数据的过程加入了Paimon(也就是使用Paimon提供的API进行数据存储)

三、Paimon中的数据存储格式

  • Paimon 使用列式存储格式(如Avro、Parquet 或 ORC)来存储数据,同时支持高效的压缩和索引机制。
  • 数据存储在分布式文件系统(如 HDFS、S3)或对象存储中。

四、Paimon的核心特性

  • 流批一体:支持实时和批量数据写入,并共享同一个存储层
  • 事务控制:提供原子性、一致性、隔离性和持久性,确保数据可靠性。
  • 高效查询:支持索引和列式存储(Parquet 或 ORC)
  • 数据版本管理:支持数据快照,方便数据回溯
  • 多引擎支持:支持Flink和Spark、兼容Hive和Presto
  • 数据压缩和存储优化:高效压缩和小文件合并

五、Paimon的大规模实时更新

Paimon的大规模实时更新得益于LSM数据结构的追加能力
Paimon创新结合了湖存储 + LSM + 列式格式 (ORC, Parquet),为湖存储带来大规模实时更新能力

六、LSM数据结构的核心思想

LSM 的核心思想是将随机写转换为顺序写,利用磁盘顺序写的高效性提升性能。它通过以下机制实现:

  1. MemTable:数据首先写入内存中的 MemTable,通常是一个有序数据结构(如跳表或平衡树),支持快速插入和查找。
  2. WAL(Write-Ahead Log):为防止数据丢失,写入 MemTable 前会先记录到 WAL,确保系统崩溃时数据可恢复。
  3. Immutable MemTable:当 MemTable 达到一定大小,会变为只读的 Immutable MemTable,并开始写入新的 MemTable。
  4. SSTable(Sorted String Table):Immutable MemTable 会被刷写到磁盘,形成 SSTable 文件,文件内部数据有序,便于后续查找和合并。
  5. Compaction:随着 SSTable 文件增多,系统会定期合并和压缩这些文件,删除重复和过期数据,减少文件数量和查找开销。

相关文章:

  • 想象一个AI保姆机器人使用场景分析
  • 故障诊断 | DCS差异创意搜索算法优化CatBoost故障诊断(MatlabPython)
  • 数组与对象的元素添加
  • Unity游戏制作中的C#基础(2)变量与数据类型
  • c/c++蓝桥杯经典编程题100道(22)最短路径问题
  • 什么是CoT(带有长链思维)的Few-shot Prompting(少样本提示)
  • 【HarmonyOS Next】拒绝权限二次申请授权处理
  • 2025保险与金融领域实战全解析:DeepSeek赋能细分领域深度指南(附全流程案例)
  • 基于python+django的家教预约网站-家教信息管理系统源代码+运行步骤
  • 学习笔记02——《深入理解Java虚拟机(第三版)》第三章
  • goredis常见基础命令
  • 深度学习:基于Qwen复现DeepSeek R1的推理能力
  • 法线向量在3D机器视觉中的应用
  • C#初级教程(4)——流程控制:从基础到实践
  • 信息学奥赛一本通 1522:网络 | OpenJudge 百练 1144:Network
  • 算法每日一练 (4)
  • 【Winform】深入理解C#中的异常处理:以WinForms应用程序为例
  • GB28181协议下的RTP传输
  • Android Loader机制解析
  • MapReduce 读取 Hive ORC ArrayIndexOutOfBoundsException: 1024 异常解决
  • 大连网站搜索优/长沙seo优化公司
  • 做网站映射tcp/长治网站seo
  • 浙江省建设工程质量协会网站/腾讯云建站
  • 网站建设及上线流程/企业网络推广服务
  • 长春公司网站建设/谈谈对seo的理解
  • 学校网站建设源代码/怎么做市场推广