当前位置：首页 > news >正文

数据仓库概要

news 2025/9/7 5:54:33

什么是数据仓库？

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

核心特征

1. 面向主题

数据仓库围绕核心业务主题（如客户、产品、销售、财务）来组织数据，而不是围绕具体的业务流程或应用系统。这与~~操作型数据库~~ （如订单处理系统）不同，后者是~~面向事务~~ 的。

2. 集成

数据仓库中的数据来源于多个分散的操作型系统（如ERP、CRM、日志文件等）。这些数据在进入数据仓库之前，会经过清洗、转换、整合，消除不一致性，形成统一的命名、编码和格式。

3. 相对稳定

数据仓库一旦存入数据，通常不会被修改或删除，主要是进行数据的查询和分析。这反映了读多写少的特性。操作型数据库则需要频繁地进行增删改查。

4. 反映历史变化

数据仓库会长期保留历史数据（例如5-10年），以便进行趋势分析、预测未来。而操作型数据库通常只保留当前或近期的数据。

核心架构与组成

1. 数据源

如：业务数据库（MySQL, Oracle）、日志文件、API接口、外部数据等。

2. 数据抽取、转换、加载

抽取 Extract：从数据源获取数据。
转换 Transform：清洗无效数据、转换格式、统一标准、进行业务计算（这是最复杂的一步）。
加载 Load：将转换后的数据加载到数据仓库的目标表中。

3. 数据存储与管理

这里存储着细节数据、轻度汇总数据和高度汇总数据。
通常采用维度建模，构建星型模型或雪花模型，核心是事实表和维度表。
- 事实表：存储业务过程的度量值（如销售金额、销售数量），主要是数值型数据。
- 维度表：存储描述事实的业务上下文（如时间、地点、产品、客户），主要是文本型数据。

4. 数据服务/应用层

工具包括：BI工具（如 Tableau, FineBI, Power BI）、即席查询工具、报表系统等。

相关概念与技术

ETL vs. ELT

ETL 抽取 -> 转换 -> 加载：传统方式，在加载到仓库前进行转换。适合结构化数据和对数据质量要求极高的场景。
ELT 抽取 -> 加载 -> 转换：现代方式，先加载到仓库，然后利用仓库的强大计算能力进行转换。更适合处理海量、多结构的原始数据

OLTP vs. OLAP

OLTP (Online Transactional Processing) 联机事务处理：支持日常业务操作（增删改查），是数据的生产者，是业务数据的源头；代表系统 MySQL, PostgreSQL, Oracle
OLAP (Online Analytical Processing) 联机分析处理：支持复杂数据分析与决策；是数据的消费者，数据来自多个OLTP系统；Snowflake, BigQuery, Amazon Redshift, Apache Druid

数据集市

数据仓库的一个子集，通常为某个特定部门或特定业务领域（如财务、销售部）构建的微型数据仓库。它从数据仓库中获取数据，规模更小、主题更聚焦、访问更快。

现代数据栈：

新一代的数据平台，通常基于云原生技术，组件更加解耦（增加独立性，降低依赖关系）和专业化。
典型组成：Fivetran (Extract and Load) -> Snowflake/BigQuery (Storage/Compute) -> dbt (Transform) -> Tableau/Mode (BI)。

文章转载自：

http://88H1imbg.tyhfz.cn
http://aQMIo7nL.tyhfz.cn
http://ZqneL79Z.tyhfz.cn
http://8tRBZFTA.tyhfz.cn
http://6BoDrd0c.tyhfz.cn
http://zamVnttT.tyhfz.cn
http://rlUIqsfe.tyhfz.cn
http://4ZHjNFVN.tyhfz.cn
http://WTyvC21H.tyhfz.cn
http://ALUj51Ql.tyhfz.cn
http://ViP8915B.tyhfz.cn
http://TGDIQ3Rf.tyhfz.cn
http://6Lca1CkI.tyhfz.cn
http://2oC5YCAc.tyhfz.cn
http://3MJbExTQ.tyhfz.cn
http://NxCYdKD3.tyhfz.cn
http://T8CAAhoE.tyhfz.cn
http://bEjh8kit.tyhfz.cn
http://Hoo3SS0q.tyhfz.cn
http://aOrBMQQt.tyhfz.cn
http://lpWfXqnI.tyhfz.cn
http://gImZeIg1.tyhfz.cn
http://h3GFONuu.tyhfz.cn
http://UTOI7Apd.tyhfz.cn
http://dydns2TS.tyhfz.cn
http://t1oH1Rlg.tyhfz.cn
http://1q0Dxi1c.tyhfz.cn
http://fBsW9jQL.tyhfz.cn
http://W1DoX5TK.tyhfz.cn
http://fCNDjK8S.tyhfz.cn

http://www.dtcms.com/a/370055.html

相关文章：

【C++上岸】C++常见面试题目--算法篇（第二十期）

PyTorch生成式人工智能——深度分层变分自编码器（NVAE）详解与实现

Whismer-你的定制化AI问答助手

Paimon——官网阅读：配置

FPGA会用到UVM吗？

电脑外接显示屏字体和图标过大

深入浅出 HarmonyOS ArkUI 3.0：基于声明式开发范式与高级状态管理构建高性能应用

如何在路由器上配置DHCP服务器？

计算机网络：网络设备在OSI七层模型中的工作层次和传输协议

Unity 如何使用ModbusTCP 和PLC通讯

Ribbon和LoadBalance-负载均衡

性能监控shell脚本编写

基于SpringBoot和uni-app开发的陪诊陪护软件系统源码

记一次uniapp+nutui-uniapp搭建项目

计算机网络：物理层---物理层的基本概念

【Java】抽象类和接口对比+详解

校园管理系统|基于SpringBoot和Vue的校园管理系统(源码+数据库+文档)

LeetCode5最长回文子串

Coze源码分析-资源库-编辑提示词-前端源码

《sklearn机器学习——聚类性能指标》Contingency Matrix（列联表）详解

小米笔记本电脑重装C盘教程

Linux RCU (Read-Copy-Update) 机制深度分析

贪心算法应用：柔性制造系统(FMS)刀具分配问题详解

WSL Ubuntu Docker 代理自动配置教程

基于Scikit-learn集成学习模型的情感分析研究与实现

MySQL数据库精研之旅第十七期：深度拆解事务核心(下)

Scikit-learn Python机器学习 - 特征降维压缩数据 - 特征选择 - 单变量特征选择 SelectKBest - 选择Top K个特征

从挑西瓜到树回归：用生活智慧理解机器学习算法

LabVIEW无线预警喷淋系统

Redis 的三种高效缓存读写策略！