数仓架构 数据表建模
数仓架构
主要用来描述 数据加工的实时链路 和 离线链路之间的关系,即 流批 关系;
lamda 架构, 是两条路, 实时计算式的, 维护数据的实时性。然后每天经过批计算后, 覆盖实时的计算结果。 保证数据准确性。
kappa架构, 即流批一体了
数据建模
星型模型是数据仓库中最简单的模型,由1张事实表和1级维表构成,适合大数据处理,但存在数据冗余。雪花模型则通过维表的层次化减少了数据存储量,提高了查询性能,但查询效率较低。星座模型是星型模型的扩展,多张事实表共享维表,适用于复杂数据关系。选择模型时应根据场景权衡数据冗余、查询效率和扩展性。
主要说明事实表和维度表之间的关系。
星型模型如下
雪花模型
当一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解就像多个雪花连接在一起,故称雪花模型。雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的"层次"区域,这些被分解的表都连接到主维表而不是事实表。
星座模型
星座模型也是星型模型的扩展。区别是星座模型中存在多张事实表,不同事实表之间共享维表信息,常用于数据关系更复杂的场景。其经常被称为星系模型。