当前位置: 首页 > news >正文

parquet :开源的列式存储文件格式

1. Parquet文件定义与核心概念

Parquet是一种开源的列式存储文件格式,由Twitter和Cloudera合作开发,2015年成为Apache顶级项目。其设计目标是为大数据分析提供高效存储和查询,主要特点包括:

  • 列式存储:数据按列而非按行组织,相同数据类型集中存储,显著提升分析查询效率(如仅读取部分列)。
  • 高效压缩:支持Snappy、Gzip、Zstd、LZO等算法,压缩率比行式格式(如CSV)高90%以上,大幅降低存储成本。
  • 自描述Schema:文件内嵌元数据(如数据类型、结构),确保跨系统一致性。
  • 嵌套数据支持:基于Google Dremel论文的算法处理复杂嵌套结构(如JSON/Protocol Buffers)。

2. 文件结构与技术细节

2.1 逻辑结构

Parquet文件由三部分组成:

  • Header:4字节魔术数字PAR1,标识文件格式。
  • Data Block:包含多个行组(Row Group),每个行组是数据处理的并行单元。
http://www.dtcms.com/a/230311.html

相关文章:

  • DeepSeek 赋能智能零售,解锁动态定价新范式
  • 60天python训练计划----day44
  • 阿里云ACP云计算备考笔记 (3)——云服务器ECS
  • 传输层协议 UDP 介绍 -- UDP 协议格式,UDP 的特点,UDP 的缓冲区
  • 结节性甲状腺肿全流程大模型预测与决策系统总体架构设计方案大纲
  • 基于 qiankun + vite + vue3 构建微前端应用实践
  • Git-git跟踪大文件
  • Modbus转EtherNET IP网关开启节能改造新范式
  • 工业自动化DeviceNET从站转Ethernet/IP主站网关赋能冶金行业工业机器人高效运行
  • AD四层板的层叠设计
  • 可编辑精品PPT | 大型企业数字化转型顶层业务架构模型解决方案数字化架构图合集可编辑架构图系统架构图技术架构图
  • ShardingSphere 如何解决聚合统计、分页查询和join关联问题
  • 【系统架构设计师】绪论-系统架构概述
  • 手写 vue 源码 === runtime-dom 实现
  • 【Java算法】八大排序
  • Python学习(6) ----- Python2和Python3的区别
  • Kafka 消息队列
  • 嵌入式链表操作原理详解
  • 几何绘图与三角函数计算应用
  • 软件安全:漏洞利用与渗透测试剖析、流程、方法、案例
  • 《深度剖析Meta“Habitat 3.0”:AI训练的虚拟环境革新》
  • 蓝桥杯17114 残缺的数字
  • 大数据Spark(六十一):Spark基于Standalone提交任务流程
  • 缓存击穿 缓存穿透 缓存雪崩
  • python collections 模块
  • OffSec 基础实践课程助力美国海岸警卫队学院网络团队革新训练
  • 基于Web的安全漏洞分析与修复平台设计与实现
  • 最长连续序列
  • Kafka 单机部署启动教程(适用于 Spark + Hadoop 环境)
  • UE接口通信