当前位置: 首页 > news >正文

数据格式(Data Format)设计

一、一些开源的data format

Apache Avro(2009)

面向行的格式用于替换Hadoop里的SequenceFiles。

Apache Parquet(2013)

为Impala设计的压缩的列式存储,来自Cloudera/Twitter。

Apache ORC(2013)

为Apache Hive设计的压缩的列式存储,来自Meta(Facebook)。

Apache Arrow(2016)

内存压缩列式存储,来自Pandas/Dremio

二、关于Format设计方面的决策

File Meta-Data 文件元数据

文件是self-contained(自包含的),也就是说文件自己能够描述自己的内容,这样可以提高可移植性。文件自身包含所有必要的信息,以便在不依赖外部数据的情况下

相关文章:

  • python3环境安装
  • redis八股--1
  • Redis 主从同步与对象模型(四)
  • JavaScript中对象和数组的常用方法
  • rust-candle学习笔记13-实现多头注意力
  • 嵌入式STM32学习——继电器
  • 大模型微调算法原理:从通用到专用的桥梁
  • 解决mybatisplus主键无法自增的问题
  • Spring之AOP
  • Windows中安装nacos-server-2.4.2
  • webpack和vite区别
  • 《Python星球日记》 第52天:反向传播与优化器
  • MySQL事务和JDBC中的事务操作
  • Veins同时打开SUMO和OMNeT++的GUI界面
  • Visual Studio 2022 远程调试
  • C++字符串操作 2024年信息素养大赛复赛 C++小学/初中组 算法创意实践挑战赛 真题详细解析
  • 蓝桥杯嵌入式第十一届省赛真题
  • `RotationTransition` 是 Flutter 中的一个动画组件,用于实现旋转动画效果
  • 仓库管理系统,Java+Vue,含源码及文档,高效管理仓库物资,实现入库、存储、出库全流程数字化精准管控
  • 睿思量化小程序
  • 长沙潮宗街内“金丝楠木老屋文旅博物馆”起火:明火已扑灭,无伤亡
  • 宇树科技王兴兴:第一桶金来自上海,欢迎上海的年轻人加入
  • 央行:下阶段将实施好适度宽松的货币政策
  • 纽约大学朗格尼医学中心的转型带来哪些启示?
  • 暴利之下:宠物殡葬行业的冰与火之歌
  • 乌克兰议会批准美乌矿产协议