数据仓库与数据挖掘基础知识
数据仓库
数据仓库(Data Warehouse,DW),即为了满足管理人员的决策分析需要,在数据库基础上产生了能满足决策分析需要的数据环境。数据仓库的基本特性有面向主题的、数据是集成的、数据是相对稳定的、数据是反映历史变化的。
典型的数据仓库具有为数据分析而设计的模式,使用在线分析处理(Online Analytical Processing,OLAP)工具进行联机分析处理。因此,数据通常是多维数据,包含维属性、度量属性。包含多维数据的表称为事实表,事实表通常很大。为了减少存储要求,维属性通常是一些短的标识,作为参照其他表的外码。
数据仓库通常采用三层体系结构,底层为数据仓库服务器、中间层为OLAP服务器,顶层为前端工具(包含查询和报表工具、分析工具、数据挖掘工具等)。
1. 面向主题的
从数据组织的角度来看,主题就是一些数据集合,这些数据集合对分析对象进行了比较完整的、一致的数据描述,这种数据描述不仅涉及数据自身,还涉及数据间的联系。数据仓库的创建使用都是围绕主题实现的,因此,必须了解如何按照决策分析来抽取主题,所抽取的主题应该包含哪些数据内容,这些数据应该如何组织。在进行主题抽取时,必须按照决策分析对象进行。
2. 数据是集成的
数据仓库的集成性是指根据决策分析的要求,将分散于各处的原数据进行抽取、筛选、清理、综合等集成工作,使数据仓库中的数据具有集成性。
数据仓库在从业务处理系统那里获取数据时,并不能将原数据库中的数据直接加载到数据仓库中,而要进行一系列的数据预处理。即从原数据库中挑选出数据仓库所需要的数据,然后将来自不同数据库中的数据按某一标准进行统一,如将数据源中数据的单位、字长与内容统一起来,将源数据中字段的同名异义、异名同义现象消除,然后将源数据加载到数据仓库,并将数据仓库中的数据进行某种程度的综合,进行概括和聚集的处理。
3. 数据是相对稳定的
数据仓库的数据主要是供决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时间的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。
4. 数据是反映历史变化的
数据仓库的数据是反映历史变化的,主要表现在以下三个方面:①数据仓库随时间变化不断增加新的数据内容;②数据仓库随时间变化不断删除旧的数据内容;③数据仓库中包含大量的综合数据,这些数据有很多信息与时间有关,如数据经常按时间段进行综合,或隔一定的时间进行抽样等等。
数据挖掘
数据挖掘(Data Mining,DM),即从海量数据库中挖掘信息的技术。从技术角度来看,数据挖掘可以定义为从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们不知道的、但又潜在有用的信息和知识的过程。
数据挖掘一般需要经历确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析与知识应用六个流程。
1. 确定挖掘对象
数据挖掘的第一步是要定义清晰的挖掘对象、认清数据挖掘的目标。数据挖掘的最后结果往往是不可预测的,但是探索的问题应是有预见性的、有目标的。
数据挖掘有时还需要一些先验知识(用户业务领域知识或以前数据挖掘所获得的初步成果),这意味着数据挖掘是一个过程,在挖掘过程中可能提出新的问题,可能尝试用其他方法来检验数据,在数据的子集上进行同样的研究。
有时业务对象是一些已经理解的数据,但是在某些情况下还需要对这些数据进行挖掘。此时,不是通过数据挖掘发现新的有价值,而是通过数据挖掘验证假设的正确性,或者通过同样方式的数据挖掘查看模式是否发生变化。
2. 准备数据
在确定数据挖掘的业务对象后,需要搜索所有与业务对象有关的内部和外部数据,从中选出适合于数据挖掘应用的数据。对数据的选择必须在建立数据挖掘模型之前完成。选择数据后,还需要对数据进行预处理,对数据进行清洗、解决数据中的缺值、冗余、数据值的不一致性、数据定义的不一致性、过时数据等问题。在数据挖掘时,有时还需要对数据分组,以提高数据挖掘的效率,降低模型的复杂度。
3. 建立模型
将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型,是数据挖掘的关键。
4. 数据挖掘
对所得到的经过转化的数据进行挖掘,除了完善与选择合适的算法需要人工干预外,数据挖掘工作都由数据挖掘工具自动完成。
5. 结果分析
当数据挖掘出现结果后,要对挖掘结果进行解释和评估。具体的解释和评估方法一般根据数据挖掘操作结果所制定的决策成败来定,但是管理决策分析人员在使用数据挖掘结果之前,又希望能够对挖掘的结果进行评估,以保证数据挖掘结果在实际应用中的成功率。
6. 知识应用
数据挖掘的结果经过业务决策人员的认可,才能实际利用。要将通过数据挖掘得出的预测模式和各个领域的专家知识结合在一起,构成一个可供不同类型的人使用的应用程序。也只有通过对挖掘知识的应用,才能对数据挖掘的成果做出正确的评价。但是,在应用数据挖掘的成果时,决策人员关心的是数据挖掘的最终结果与用其他候选结果在实际应用中的差距。
参考资料:
1. 数据库系统工程师教程 / 王亚平,刘伟主编.—4版.—北京:清华大学出版社,2020.12(2023.3重印).全国计算机技术与软件专业技术资格(水平)考试指定用书.