数据格式(Data Format)设计
一、一些开源的data format
Apache Avro(2009)
面向行的格式用于替换Hadoop里的SequenceFiles。
Apache Parquet(2013)
为Impala设计的压缩的列式存储,来自Cloudera/Twitter。
Apache ORC(2013)
为Apache Hive设计的压缩的列式存储,来自Meta(Facebook)。
Apache Arrow(2016)
内存压缩列式存储,来自Pandas/Dremio
二、关于Format设计方面的决策
File Meta-Data 文件元数据
文件是self-contained(自包含的),也就是说文件自己能够描述自己的内容,这样可以提高可移植性。文件自身包含所有必要的信息,以便在不依赖外部数据的情况下