当前位置：首页 > news >正文

大数据学习（80）-数仓分层

news 2025/10/3 5:34:38

🍋🍋大数据学习🍋🍋

🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

一、数仓分层

数据仓库分层是一种组织和管理数据仓库的结构化方法，它将数据仓库划分为不同的层次或级别，每个层次具有特定的功能和目的。这种分层方法有助于管理数据仓库中的数据流程、数据处理和数据访问，并提供一种清晰的结构来支持数据管理和分析需求。

一个好的分层架构，要有以下好处：

1 清晰数据结构：

数仓每一层都有对应的作用，方便在使用时更好的定位与了解。

2 数据血缘追踪：

清晰知道表或任务上下游，方便排查问题，知道下游哪个模块在使用，提升开发效率以及后期管理维护。

3 减少重复开发：

提高数据复用性，完善好数据仓库的中间层，减少后期不必要的开发，从而减少资源消耗，保障口径、数据统一。

4 复杂问题简单化：

将复杂问题拆解成多个步骤来完成，每一层处理单一步骤，当数据问题出现时，只需从问题出现处开始修复。

5、屏蔽原始数据的影响

数据仓库对接的源系统众多，且每个源系统的表命名、字段命名、字段含义等各有不同，通过数据仓库的分层设计，从底层来规范和屏蔽所有这些复杂性，保证下游数据用户使用数据的便捷和规范。如果源系统发生变更，只需要再相应的数据仓库层来处理，对下游用户透明无感。

数据仓库分层用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据；不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大。
通过数据分层管理可以简化数据清洗的过程，把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样比较容易保证每一个步骤的正确性，当数据发生错误的时候，往往我们只需要溯源并局部调整某个步骤即可。