当前位置: 首页 > news >正文

数据治理之数据仓库

本文主要阐述了数据仓库在大数据平台项目中的地位和重要性,对目前市场上数据仓库主流设计进行分析说明,讲述了通用数据仓库设计上所应考虑的因素。

  1. 数据仓库介绍

   数据仓库是一个过程而不是一个项目;数据仓库是一个环境,而不是一件产品。数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中,以提供决策型数据访问的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。

  • 面向主题

操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。

  • 集成汇总:

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

  • 相对稳定

数据仓库的数据主要供分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

    • 反映历史变化

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

2.数据仓库地位和作用

数据仓库最重要的一个作用就是为企业提供决策支持,它是一种分析工具,最简单的数据仓库可以实现存储和报告数据,数据源一般来自多个系统,然后将其一如数据仓库进行长期存储和分析,这种模式可以使企业内的不同部门进行访问和分析,支持跨多个部门的决策和报告。

1、提供加强的商业智能BI

利用从各种数据源提供的数据,管理人员和高管们将不再需要凭着有限的数据或他们的直觉做出商业决策。此外,“数据仓库及相关商业智能BI可直接用于包括市场细分、库存管理、财务管理、销售这样的业务流程中。”

2、提高效率和节省成本

通过数据仓库,可以建立企业的数据模型,这对于企业的生产与销售、成本控制与收支分配有着重要的意义,极大的节约了企业的成本,提高了经济效益,同时,用数据仓库可以分析企业人力资源与基础数据之间的关系,可以用于返回分析,保障人力资源的最大化利用,亦可以进行人力资源绩效评估,使得企业管理更加科学合理。

3、提高数据的质量和一致性

一个数据仓库的实施包括将数据从众多的数据源系统中转换成共同的格式。由于每个来自各个部门的数据被标准化了,每个部门将会产生与所有其它部门符合的结果。所以可以对数据的准确性更有信心。而准确的数据是强大的商业决策的基础。

4、提供数据历史价值

一个数据仓库储存了大量的历史数据,所以你可以通过分析不同的时期和趋势来做出对未来的预测。这些数据通常不能被存储在一个交易型的数据库里或用来从一个交易系统中生成报表。

5、创建高的投资回报率

已经安装了数据仓库和完善了商业智能BI系统的企业比没有在商业智能BI系统和数据仓库投资的企业能产生更多的利润和节约更多的资金。而这应该成为高级管理层快速加入到数据仓库这个潮流中的足够理由。

3.数据仓库组成

3.1数据仓库数据库

数据仓库的数据库是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。

3.2数据仓库ETL工具

数据抽取工具把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键。数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。

3.3元数据

元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据

相关文章:

  • 车辆模型——运动学模型
  • Excel(函数进阶篇):FILTER函数全解读、XLOOKUP函数全解读、UNIQUE函数、数组与数组公式
  • 企业数据孤岛的纠结与恩怨
  • 使用Pygame实现记忆拼图游戏
  • 图像滤波中常用滤波器的相位响应——不是只有零相位滤波器
  • Java 大视界 -- Java 大数据分布式计算中的通信优化与网络拓扑设计(145)
  • 家庭带宽运行PCDN
  • 关于CNN,RNN,GAN,GNN,DQN,Transformer,LSTM,DBN你了解多少
  • 每日一题--C与C++的差别
  • ROS篇---坐标系(直角坐标系、圆柱坐标系、球坐标系)
  • 记一次发短信接口分析
  • RISC-V AIA学习1----介绍
  • 【Agent】Dify Docker 安装问题 INTERNAL SERVER ERROR
  • 一、对42步进电机使用演示记录
  • 【Pandas】pandas Series plot.barh
  • 【操作系统】共享数据的竞争问题
  • Python预训练模型实现俄语音频转文字
  • 2025年渗透测试面试题总结- 某亭-安全研究员(题目+回答)
  • Redis设计与实现-底层实现
  • 视频录制与输出指南:获得最佳效果的关键参数
  • 中国至越南河内国际道路运输线路正式开通
  • 中国-拉共体成员国重点领域合作共同行动计划(2025-2027)
  • 支持企业增强战略敏捷更好发展,上海市领导密集走访外贸外资企业
  • 工人日报:“鼠标手”被纳入职业病,劳动保障网越织越密
  • AI观察|从万元到百万元,DeepSeek一体机江湖混战
  • 警方通报:某博主遭勒索后自杀系自导自演,已立案调查