软考《信息系统运行管理员》- 5.5 信息系统数据资源的开发与利用
信息系统对决策支持的程度可以划分为事务处理、分析处理和商务智能
三个层次.
数据仓库
人们要求信息 系统具有对多方面数据进行综合分析的能力,这就要求建立一个面向分析的、集成存储大量历 史数据的新型数据管理机制,这一机制就是数据仓库 (Data WareHouse,DW)、决策支持系统 (DSS) 和联机分析应用数据源的结构化数据环境,其特征在于面向主题、集成性、稳定性和时 变性。
数据仓库系统至少应该包含数据获取、数据存储、数据访问三个关键部 分。
数据挖掘
数据挖掘是通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势 的过程。
根据知识类型将数据挖掘划分为以下几类:
(1)概念描述
(归纳或简约)。包括对概念的识别和比较,它通过对数据进行一般化汇总 或将可能矛盾的数据的特征进行说明,
(2)关联规则
。发现数据之间的关联性、相关性和因果关系,从而进一步得出不同信息之 间潜在的逻辑规律,为业务运作提供参考和决策支持。
(3)分类和预测
。对数据按类进行划分,挖掘出每类数据的描述和模型,根据已有信息和 模式,来预测未来或未知的属性值。
(4)聚类
。将数据按照某种标准进行汇总,形成新的类。聚类和分类不同,在分类中,数 据事先是给出类标记的,然后选择分类算法对这些类进行划分,是一种监督学习的方式;而聚 类则是将数据集合按特定属性测度的相似性进行聚合,并没有事先给定类别,是一种非监督学 习的方式。
(5)时间序列数据分析
。这是统计方法的直接应用,主要包括趋势和偏差分析、用户定义 的模式匹配分析及周期数据分析。
数据挖掘在电子商务中的应用
- 数据挖掘的具体应用方面
- 找到潜在客户
- 实现客户驻留
- 改进站点的设计
- 进行市场预测
- 面向电子商务的数据挖掘过程
- 准备数据
- 发现模式
- 分析、解释模式
数据挖掘在应用中面临的问题
- 数据挖掘分析变量的选择
- 数据抽取的方法的选择
- 数据趋势的预测
- 数据模型的可靠性
- 数据挖掘涉及数据的私有性和安全性
- 数据挖掘结果的不确定性
Web 数 据 挖 掘 技 术
Web 数据挖掘主要包括三种数据挖掘任务:
( 1 ) 对Web 内容的挖掘。
( 2 ) 对Web 结构的挖掘。
( 3 ) 对Web 访问的挖掘。
Web 挖掘技术与流程
(1)查找资源。
(2)模式发现。
(3)模式分析。
Web 数据挖掘技术在电子商务中的应用
(1)服务器端数据的收集(Server Level Collection)。
(2)包监测技术(packet sniffing technology)。
(3)后台数据库里的原有数据。
Web 数据挖掘技术实现的总体流程如下:
-
确立目标样本,即由用户选择目标文本,作为提取用户的特征信息。
-
提取特征信息,即根据目标样本的词频分布,从统计词典中提取出挖掘目标的特征向 量并计算出相应的权值。
-
网络信息获取,即先利用搜索引擎站点选择待采集站点,再利用Robot 程序采集静态 Web页面,最后获取被访问站点网络数据库中的动态信息,生成WWW 资源索引库。
-
信息特征匹配,即提取索引库中的源信息的特征向量,并与目标样本的特征向量进行 匹配,将符合阈值条件的信息返回给用户。