当前位置: 首页 > news >正文

数据格式(Data Format)设计

一、一些开源的data format

Apache Avro(2009)

面向行的格式用于替换Hadoop里的SequenceFiles。

Apache Parquet(2013)

为Impala设计的压缩的列式存储,来自Cloudera/Twitter。

Apache ORC(2013)

为Apache Hive设计的压缩的列式存储,来自Meta(Facebook)。

Apache Arrow(2016)

内存压缩列式存储,来自Pandas/Dremio

二、关于Format设计方面的决策

File Meta-Data 文件元数据

文件是self-contained(自包含的),也就是说文件自己能够描述自己的内容,这样可以提高可移植性。文件自身包含所有必要的信息,以便在不依赖外部数据的情况下

http://www.dtcms.com/a/182604.html

相关文章:

  • python3环境安装
  • redis八股--1
  • Redis 主从同步与对象模型(四)
  • JavaScript中对象和数组的常用方法
  • rust-candle学习笔记13-实现多头注意力
  • 嵌入式STM32学习——继电器
  • 大模型微调算法原理:从通用到专用的桥梁
  • 解决mybatisplus主键无法自增的问题
  • Spring之AOP
  • Windows中安装nacos-server-2.4.2
  • webpack和vite区别
  • 《Python星球日记》 第52天:反向传播与优化器
  • MySQL事务和JDBC中的事务操作
  • Veins同时打开SUMO和OMNeT++的GUI界面
  • Visual Studio 2022 远程调试
  • C++字符串操作 2024年信息素养大赛复赛 C++小学/初中组 算法创意实践挑战赛 真题详细解析
  • 蓝桥杯嵌入式第十一届省赛真题
  • `RotationTransition` 是 Flutter 中的一个动画组件,用于实现旋转动画效果
  • 仓库管理系统,Java+Vue,含源码及文档,高效管理仓库物资,实现入库、存储、出库全流程数字化精准管控
  • 睿思量化小程序
  • Redis 哨兵
  • AI 入门资源:微软 AI-For-Beginners 项目指南
  • #Redis黑马点评#(四)优惠券秒杀
  • 基于定制开发开源AI智能名片S2B2C商城小程序的公私域流量融合运营策略研究
  • mac u盘重装mac10.15Catalina系统
  • 【递归、搜索和回溯】二叉树中的深搜
  • 绑定 SSH key(macos)
  • 《Python星球日记》 第51天:神经网络基础
  • JS较底层的用法,几类简单介绍
  • HTTP/2概览及内核解析