当前位置：首页 > news >正文

数据挖掘概述

news 2025/11/15 6:03:29

什么是数据挖掘

数据挖掘技术的产生与发展

商业需求与应用牵引

技术背景驱动

大数据时代对数据挖掘的新增需求

数据流挖掘的要点

数据挖掘与 OLTP/OLAP/DSS/数据仓库的关系

典型任务与方法

数据挖掘研究的发展趋势

数据挖掘概念

从商业角度看数据挖掘技术

数据挖掘的技术含义与KDD

数据挖掘研究的理论基础（七类代表框架）

数据挖掘技术的分类问题

常用的知识表示模式与方法

广义知识挖掘（总结概况）

关联知识挖掘（Association）

类知识挖掘（Classification）

聚类知识挖掘（Clustering）

预测型知识挖掘（Prediction）

特异型（异常）知识挖掘（Outlier/Exception）

不同数据存储形式下的挖掘

事务数据库中的挖掘（Transactional DB）

关系型数据库中的挖掘（Relational DB）

数据仓库中的挖掘（Data Warehouse）

在关系—对象模型演进下的新型数据库

面向应用的新型“数据源”里的挖掘

Web 数据源中的挖掘（Web Mining）

粗糙集方法及其在挖掘中的应用

数据挖掘的应用分析

数据挖掘与 CRM（客户关系管理）

数据挖掘与社会网络

什么是数据挖掘

定义

数据挖掘（Data Mining）是综合数据库技术、人工智能、机器学习、统计学、知识工程、信息检索、高性能计算与数据可视化等多学科方法，对大规模数据进行自动化/半自动化的模式发现、趋势挖掘与预测，以获得具有可解释性且可复用的知识，支撑分析与决策。
更宽的术语是KDD（Knowledge Discovery in Databases, 数据库中的知识发现），它是一个过程：
(1) 数据选择
(2) 数据清洗/预处理
(3) 数据集成/变换（含特征构造、降维）
(4) 数据挖掘（核心算法阶段：分类、聚类、关联、回归、序列/时序、异常检测等）
(5) 模式评估与表达（可视化、解释、部署）

层级关系
数据→信息→知识：查询/报表主要把数据转为信息；挖掘/KDD进一步把信息概括为知识（一般化、可验证、可迁移的模式/规律），面向更高层的理解与决策。
现实中常出现 Data Rich, Information Poor（富数据、贫信息/知识），即数据库里堆满数据，但人只能得到零散、局部且被动的信息；KDD正是为系统性、主动性地把数据资产转成知识资本。

数据挖掘技术的产生与发展

商业需求与应用牵引

数据库系统与应用环境的演化

20世纪60—70年代：从文件处理系统向数据库系统转变；
70—80年代：层次/网状/关系三种主要模型研究与应用推进；
80年代中后期：关系数据库成熟并主导；对象-关系/面向对象数据库、并行/分布式数据库、主动数据库（Active DB）、知识库/信息库等相继提出；
90年代：业务上联机事务处理（OLTP）为核心的应用普及，但面向分析/预测的高层应用不足；随之出现数据仓库（DW）、联机分析处理（OLAP）与决策支持（DSS），但仍难满足从“信息”走向“知识”的深层诉求。
结论：企业/政府/行业的规模化信息化与竞争加剧，把从历史数据中提炼可执行洞见的能力推到战略高度，直接催生了数据挖掘。

数据形态与规模的变化

数据量级持续跃升；类型从结构化扩展到半结构化/非结构化（文本、图像、音视频、日志、Web、传感器、多媒体等）；来源从单机/部门扩展到多源异构、跨组织、跨网络；存取从离线转向近实时/实时。
痛点：传统手工分析 + 经验判断已难支撑规模、速度与复杂度；统计报表只能回答已知问题，难以发现未知模式。

技术背景驱动

信息技术底座：数据库/数据仓库/Internet 技术成熟；并行与分布式架构、高性能计算、存储与网络的指数级进步（摩尔定律带来的CPU、存储、I/O成本下降与能力提升）

方法论底座：统计学（推断、建模、假设检验、概率图）、人工智能/机器学习（监督/无监督/半监督/强化、规则学习、树/概率/核/集成/深度模型等）与知识工程（表示、推理、解释）成果从理论走向工程化。

经验型智能的瓶颈：专家系统暴露“知识获取难、可扩展性差、维护成本高、领域迁移困难”的局限；社会数据与业务复杂性迫使我们从“手工规则”转向“从数据自动学习”。

互联网与社会网络：用户规模爆炸与在线行为数据的全面数字化，形成了天然样本库，倒逼挖掘技术向大规模、在线化、个性化演进。

大数据时代对数据挖掘的新增需求

大数据概念的演进与阶段

1. 概念萌芽期（2000年之前至早期）：学术界少量论文与产业苗头（以Google等为代表），强调“大数据将成为关键生产要素”。
2. 广泛讨论/探索期（2001—2010）：论文与报道激增，产业普及，数据规模与应用场景快速扩展，Web与联网数据成为核心来源之一。
3. 深化与落地期（2011年至今）：咨询与厂商报告将大数据系统化（如IDC 4V、IBM“真伪性Veracity”、Gartner“价值实现需有可处理模式”等），学术论文指数式增长，应用渗透政产学研。

典型定义与“4V”

IDC（行业共识）：Volume（规模）、Velocity（速度）、Variety（多样）、Value（价值）四个维度（IBM额外强调Veracity（真伪/可信））
Gartner：只有当处理模式能将潜在价值转化为可感知/可运营的收益，大数据才成立。
学术补充：维克托•迈尔-舍恩伯格等提出不再以抽样到推断为唯一途径，而是面向全量/弱约束数据的直接计算与管理，凸显处理范式迁移。

围绕4V的技术挑战与挖掘应对

（1）Volume 超大规模

挑战：单机内存/磁盘/带宽受限，多遍扫描代价高。

应对：
分布式存储与计算（Hadoop/Spark、MPP、并行数据库）
算法并行化（MapReduce风格、参数/数据并行、模型并行）
近似计算/抽样/草图结构/压缩（Reservoir、Count-Min等）
离线批处理 + 线上增量/在线学习的分层计算

（2）Velocity 高速度/实时性

挑战：数据以流（Data Stream）方式到达，到达快、变化快、分布漂移，难以多遍读取。

应对：
流式挖掘范式：一次扫描/有限存储/增量更新
滑动窗口/时间衰减/采样
概念漂移检测与自适应模型
CEP（复杂事件处理）与近实时特征/在线预测

（3）Variety 多源异构/多模态

挑战：结构化（表）、半结构化（XML/JSON/日志）、非结构化（文本、图像、语音、视频）并存；跨域、跨平台、跨组织数据需要对齐与融合。

应对：
表示学习与特征工程（词向量/图表示/视觉深度特征等）
信息抽取与模式对齐（实体消歧、对齐、Schema映射、知识图谱）
领域化挖掘分支：Web挖掘（内容/结构/链接/访问日志）、社交网络挖掘、多媒体挖掘。
多模态融合（文本+图像+语音+传感）与因果/时空网络

（4）Value 价值密度低但潜在价值高

挑战：海量数据“噪多信少”，有用模式稀疏；仅做存储与可视化难以“变现”。

应对：
从指标到洞见：关注可解释、可行动的模型与业务闭环（发现→决策→反馈→再学习）
任务导向：风险控制、精准营销、用户画像、推荐、运维与异常检测、供应链优化、公共治理等
真伪性（Veracity）控制：数据质量、偏差与公平性、鲁棒与不确定性评估

数据流挖掘的要点

数据到达方式：连续、快速、只读一次可行，难以全量落库后多轮计算。
算法范式：单遍扫描、增量式、受限内存、任何时刻可给出当前模型/统计。
工程管道：采集→缓冲/队列→在线特征→模型更新→告警/决策；支持突发流量、漂移、窗口策略。
与传统离线挖掘对比：传统依赖多次完整扫描+静态样本，流式要求到达即处理+持续演化

数据挖掘与 OLTP/OLAP/DSS/数据仓库的关系

OLTP：面向事务的细粒度操作（增删改查），强调并发与一致性。
数据仓库（DW）：集成面向主题的历史数据，支撑分析；ETL把源系统数据清洗/集成到仓库。
OLAP/DSS：多维汇总与交互分析/决策支持，回答“已知问题”。
数据挖掘：在此之上，自动发现未知模式并进行预测与推断，是更高层次的分析与知识服务。

ETL 的英文全称是 Extract, Transform, Load，中文译为数据抽取、转换、加载。
Extract（抽取）：从多个数据源（如数据库、文件、API 等）提取原始数据。
Transform（转换）：对抽取的原始数据进行清洗、整合、标准化等处理，使其符合目标系统要求。
Load（加载）：将处理后的干净数据加载到数据仓库（DW）等目标存储中。

OLTP 是数据的生产者。

数据仓库是数据的整理者和存储中心。

OLAP 是数据的使用者和提问者。

数据挖掘是数据的探索者和预言家。

典型任务与方法

监督学习：分类（SVM、树/集成、神经网络）、回归（线性/非线性/树、神经网络）
无监督学习：聚类（k-means/层次/谱/密度）、关联规则（Apriori/FP-Growth）、主题模型。
半监督/主动/迁移/联邦/图学习：应对标注稀缺、跨域、隐私与分布式场景。
时序/序列/图挖掘：序列模式、异常检测、因果与事件链、社交/知识图谱。
文本/Web/日志/多媒体：内容/结构/链接/访问混合建模，多模态融合与推荐检索
可视化与可解释性：规则/重要性/反事实、交互式可视分析。

有答案的练习（监督学习），比如教机器区分猫狗图片（分类），或者预测房价走势（回归）。常用方法如同画分界线的SVM、像专家团队的决策树、以及模拟人脑的神经网络。

自己找规律（无监督学习），比如把客户自动分组（聚类），或者发现“买尿布常买啤酒”的购物规律（关联规则）

现实世界中数据往往不完美，于是发展出一些更聪明的方法：

当缺少标注时，用半监督/主动学习（少量标签+智能提问）

需要复用经验时，用迁移学习（举一反三）

保护隐私时用联邦学习（数据不动模型动）

对于特殊类型数据，工厂也有专门车间：

分析时间序列（如股价预测）

挖掘关系网络（如社交圈分析）

无论是处理文本、网页还是音视频，工厂都能通过多模态融合技术，实现更精准的推荐和搜索。

最重要的是，这个工厂不仅给出结果，还通过可视化分析和规则解释，让人能看懂推理过程,比如告诉你“申请被拒是因为收入不足”，甚至模拟“如果收入增加2万就能通过”的反事实场景，让AI的决策变得透明可信。

数据挖掘研究的发展趋势

1. 总体态势

多学科汇聚：历经十数年发展，数据挖掘吸收数据库、AI/ML、统计学、信息检索、可视化与高性能计算等成果，形成带有自身范式与方法论的交叉研究分支。
阶段性特征：与其他新技术类似，经历概念提出 → 接受扩散 → 广泛研究与探索 → 渐进应用与大规模应用。当前多数学者认为研究仍处于广泛研究与探索阶段：
一方面，概念已被广泛接受，理论上涌现出大量挑战性与前瞻性问题；
另一方面，产业化与大面积应用仍需更深入的研究积累与工程实践。

2. 学术与产业拉动

学界与业界对数据挖掘的兴趣持续增长，研究力量来自高校、研究机构、政府项目与企业。学术界偏基础理论与通用方法，企业/政府偏落地问题与数据资源结合。

自20世纪80年代末概念提出后，挖掘的经济价值逐步显现，并被咨询/厂商推动形成市场。2007年Gartner把数据挖掘和机器学习列入未来3–5年影响产业的关键技术之一；同时它也进入十大战略技术名单，说明其在体系结构/数据库/分析等底层领域的战略地位。

3. 技术鸿沟与应用形态

目前很多系统仍处在跨越鸿沟之前：
多为通用辅助开发工具，需要专家和数据科学团队配合；
横向方案（Horizontal Solution）多，纵向方案（Vertical Solution）不足，即通用平台较多，行业场景化方案缺口仍大。
产业成功更可能源于将挖掘理念与特定领域知识与业务逻辑结合，形成面向问题的端到端纵向解决方案。

4. 面向应用的六类关键开放问题

业务价值落地：不止于发现模式，更要无缝嵌入业务流程，提供可解释、可验证、可执行的洞察（如直接生成风控规则或推荐策略）
数据源适配：算法必须能灵活、高效地处理各种类型的数据源（从传统数据库到NoSQL、JSON、日志文件等），克服接口和模型的差异。
数据规模与质量：在动辄海量、充满噪声、不完整的数据中，必须进行有选择、有针对性的预处理，而不是蛮力规整所有数据。
人机协同交互：系统需要模块化、可交互，支持人在循环中进行采样、试探、评估和可视化，实现“边挖边看”的协同分析。
专用工具语言：需要超越SQL的、更高级的抽象语言和可视化工具，来简化和描述整个数据挖掘任务管道，并直观呈现结果与偏差。
专属理论发展：需建立数据挖掘自身的理论基础，以专门解决其独特问题。

数据挖掘概念

从商业角度看数据挖掘技术

定义（商业视角）：一种面向商业信息处理的新技术，通过对历史与现网数据的观察→统计→分析→综合→推理，自动发现关联、模式与趋势，把数据转化为可解释且可执行的知识，以支持运营/管理/营销/风控/预测等高层活动。
定位：数据挖掘是企业信息化的“知识层”，位于DW/OLAP之上，聚焦未知的规律与将来态的预测/决策。
效果：帮助企业从海量、复杂、异构数据中提取可落地的洞见，形成可操作规则/模型，服务策略优化与流程改进。

数据挖掘的技术含义与KDD

KDD（Knowledge Discovery in Databases）：数据库中的知识发现过程。1990年代形成国际会议KDD并扩展出DMKD等专刊，成为国际研究热点。

三种常见关系视角：

KDD看成挖掘的一个特例（早期观点）：把从各类数据库/仓库/Web/文本等中抽取知识的过程统称数据挖掘，强调源数据形式的多样性。
数据挖掘是KDD过程中的一步（主流工程观点）：KDD=选择、清洗、集成、变换、挖掘、评估、表示的端到端流水线；挖掘是其中算法核心步骤。
KDD与Data Mining含义相同（宽泛用法）：二者常被混用，实际语境依赖场景。

数据挖掘研究的理论基础（七类代表框架）

1. 模式发现：
核心思想：让机器自动学习
（以机器学习为核心，从数据中自动找出各类知识结构。）

2. 规则发现：
核心思想：万法归宗，皆是规则
（将所有挖掘问题统一为寻找“如果…那么…”的规则，并用一套标准指标来衡量。）

3. 概率与统计：
核心思想：用概率说话，量化不确定性。
（为发现的结果提供置信度和可解释性，处理噪声和随机性。）

4. 微观经济学：
核心思想：挖掘也要算经济账。
（将模式视为商品，衡量其价值（效用）和成本，追求性价比最高的发现。）

5. 最小描述长度：
核心思想：最好的模型是最简洁的模型。
（一个模式如果能极大地压缩数据长度，它就是好模式。）

6. 归纳数据库：
核心思想：把“知识”当“数据”一样管理。
（在数据库中直接存储和查询挖掘出的模式和规则，形成发现与管理的闭环。）

7. 可视化数据挖掘：
核心思想：让人脑参与循环。
（通过可视化将挖掘过程变得直观，利用人类的视觉和直觉进行探索和交互。）

数据挖掘技术的分类问题

从四个角度来给数据挖掘：

A. 按“挖掘任务/要得到什么”来分

概念/特征的总结：把零散数据概括成规律或特征
关联规则：找“同时出现/有依赖”的关系（超市“啤酒-尿布”就是典型）
序列/时序模式：按时间先后出现的规律（用户行为路径、购买序列）
相似模式：相像的内容归到一起（文本相似、图片相似）
混沌/噪声中的规律、依赖关系/概率模型、异常/稀有事件（欺诈、故障早期征兆）等

B. 按“数据放在哪里/什么类型数据”来分

关系型数据库、面向对象数据库、空间数据库（地理位置）、
时态/时序数据库、文本数据库、多媒体数据库、异质/跨源数据、
过程/流式数据、Web数据……
核心意思：数据长什么样，决定你要换什么“刀法”。

C. 按“用什么方法/理论工具”来分

机器学习（监督/无监督/半监督/强化）
统计学方法（回归、检验、概率模型）
聚类分析（k-means、层次、密度等）
神经网络/深度学习
遗传/进化算法
数据库方法（靠SQL/索引/内置算子来做）
近似与不确定性推理、粗糙集/模糊集、集合/代数方法、集成方法（Bagging/Boosting）

D. 按“能发现的知识类型”来分

概念/定义型知识（某类东西的共性定义）
偏好/差异型知识（A和B有什么不同）
关联/依赖型知识（一起出现/相互影响）
预测/分类型知识（给出标签或数值预测）
异常/罕见知识（少见但重要的异常点/异常序列/异常关联）

这些角度互补：先看“要什么（任务）”，再看“数据啥样（对象）”，再定“怎么做（方法）”，最后产出“知识类型”

常用的知识表示模式与方法

挖掘不仅要“挖”，还要怎么表示让人看懂、能用（挖什么+怎么表达）

广义知识挖掘（总结概况）

目标：把细碎数据“拉远看”，得到更宏观、更可视化的知识（报表/图表背后的概念化总结）

① 概念描述（Concept Description）

做什么：给某类对象做特征总结（Characterization）和区别点（Discrimination）

常用法：
概念归纳/多层次汇总（像把明细按维度汇总上卷：部门→公司→城市→国家）
多维统计/OLAP（均值、最大、占比、趋势图等），把结果以表/柱状/饼图等呈现。

注意：样本要够、类别边界要清、层级要合理（所谓概念层次/层级）

② 多层次概念描述（Concept Hierarchy）

为什么：很多属性天然分层（如地点：区→市→省→国家；年龄段；收入段）

四种建层方式：
模式层次（Schema层次，数据库自带层级）
取值分组层次（把连续值按段分箱，如0–1000、1000–2000…）
操作导出层次（按业务规则组合成更抽象概念）
基于规则的层次（写规则把低层映到高层）

用处：支持上钻/下钻的多层汇总，成为概览/仪表盘/报表的知识基础。

关联知识挖掘（Association）

定义：找项与项之间的“同时发生/依赖”关系（如{牛奶, 面包}→{黄油}）。

为什么有用：能指导搭售/陈列、交叉营销、捆绑定价等。

经典指标：
最小支持度（Support）：一起出现的频率要不低于阈值
最小置信度（Confidence）：推出关系的可靠度要不低于阈值

代表算法：Apriori / FP-Growth

代表算法：Apriori

核心思想：“步步为营”。像筛沙子一样，一层层地筛。

第一步：先找出所有 “单人气王”（支持度高的单个商品），比如“牛奶”、“面包”、“尿布”。

第二步：只用这些“单人气王”来组合，找出所有 “双人组合”（如{牛奶,面包}、{牛奶,尿布}），再筛出其中支持度高的。

第三步：再用这些“双人组合”去生成 “三人组合”，继续筛...

为什么这样？因为一个组合如果本身不火，那它再加上别的商品也不可能火。这大大减少了计算量。

代表算法：FP-Growth

核心思想：“建一棵情报树”。它更聪明，先把所有小票信息压缩成一棵特殊的“树形结构”，然后直接从这棵树里快速“采摘”出所有的频繁组合。

特点：通常比 Apriori 更快，尤其适合大数据量。

类知识挖掘（Classification）

定义：把样本分到已知的类别（有标签的监督学习）

基本流程：划训练/测试 → 选特征 → 训练模型 → 评估（准确率、召回、AUC等）

常见方法：
决策树（ID3/C4.5/CART…）：可解释、训练快；对噪声和连续变量要注意剪枝/离散化
贝叶斯分类（朴素/网络）：假设独立性，速度快、可解释；相关性强时会打折扣
神经网络：表达力强、能拟合复杂模式；训练慢、可解释性弱（早期BP，如今可理解为深度学习的前身）
遗传/进化算法：搜索最优规则或特征组合，适合复杂空间的优化
基于实例/相似度：kNN、Case-Based；简单好用，但特征尺度/距离要处理好
其他：粗糙集/模糊集（处理不确定/模糊边界）、回归（连续值预测）、规则学习/集成方法等

小对比：分类是“有标签老师”；聚类是“无老师自己分组”

分类就是你利用一批已经知道答案的数据（训练集），去训练一个模型（分拣员），让它学会一套判断标准，从而能够自动地对新的、未知的数据进行预测和归类。

聚类知识挖掘（Clustering）

定义：把对象按相似性自动分成若干群；无监督学习。

用途：客户分群、商品分群、图像分组、异常点初筛等。

主要技术家族：
基于划分：k-means、PAM、CLARA、EM（高维/大样本常用，需选k）
基于层次：凝聚/分裂两派（CF-Tree/BIRCH、Chameleon等），能形成树状层级
基于密度：DBSCAN/DENCLUE/OPTICS，能发现任意形状簇，并能识别噪声/离群点
基于网络/图：把数据放到网格/图结构里再聚（如STING、WaveCluster、CLIQUE）
基于模型：用统计模型刻画每个簇（如高斯混合），通过优化得到最佳划分

提示：聚类结果依赖距离/相似度定义与参数；不同任务往往需要结合业务特征来解释。

聚类就是一场探索性的发现之旅，它帮你从无标签的数据中，找到内在的自然分组，为更深度的分析和决策提供起点。

预测型知识挖掘（Prediction）

定义：利用历史 + 当前数据，预测未来数值或趋势。

典型方向：
趋势/回归：移动平均、指数平滑、线性回归等
周期/季节：频谱/小波/周期开窗分析
序列模式/频繁序列：如FreeSpan等找“事件序列规律”
神经网络/机器学习：当关系非线性、特征多时效果更好

场景：销售/流量预测、库存/能耗预测、健康/故障预警等。

预测型知识挖掘，就是基于已经发生的“过去”和正在发生的“现在”，运用各种分析工具，像一位经验丰富的航海家一样，尽可能地“看见”未来，从而帮助我们提前决策、规避风险、抓住机会。

特异型（异常）知识挖掘（Outlier/Exception）

目标：从海量数据里找稀少但重要的异样点/异样模式（可能是欺诈、入侵、设备故障、罕见病症等）

常见类型：
孤立点：个别点偏离整体（基于距离/密度/统计检验）
异常序列：一段行为序列不符合常规（异常轨迹、异常Log序列）
异常关联/规则：违反常见关联的“反常组合”

要点：异常通常很少、代价高，评估要结合业务后果与告警可解释性。

分类 vs 聚类：有老师（有标签）vs 没老师（无标签）
关联 vs 序列：同时出现的关系 vs 按时间先后的关系
预测 vs 描述：预测“将来会怎样” vs 概括“现在/过去是什么样”
异常：少见但重要，重在发现和解释
概念层次：支持“上钻/下钻”的多层汇总，是仪表盘/报表后面的知识骨架。

不同数据存储形式下的挖掘

事务数据库中的挖掘（Transactional DB）

场景：超市小票、购物车、点击会话，每条记录是一桩“交易/事务”，包含一组项。
代表任务：关联规则/频繁项集（Market Basket Analysis）
例：{牛奶, 面包} => {黄油}，用支持度/置信度衡量“常见度/可靠度”。
为什么重要：算法成熟（Apriori/FP-Growth），能直接落地到定价、陈列、推荐、补货等。

事务数据库挖掘，就是把你手上的每一份“小票”或“记录”都变成情报，通过“支持度”和“置信度”这两个筛子，从海量数据中筛出那些最常出现、最可靠的“黄金搭档”，然后把它们变成真金白银的商业决策。

关系型数据库中的挖掘（Relational DB）

关系库有多表/主外键，能描述对象之间的关系，适合做更“结构化”的知识。

四个典型问题：
多维知识：单维“谁买了何物”不够，要加地域/时间/客户分层等多维汇总（可借OLAP的维度层级）多表/多关系挖掘：不仅在一张表里挖，还要跨主外键做联合分析（多关系挖掘、关系模式挖掘）多层级挖掘：地点=区→市→省→国；产品=SKU→品类→部门，支持上钻/下钻的层次模式。
规则评价：同一条强规则在现实可能互相替代/竞争（买A减少买B），要考虑约束、利益、代价等更贴近业务的评估。

关系型数据库挖掘，就是让你利用数据库中已经存在的各种“关系”和“结构”，进行一场更深入、更立体、也更贴合商业现实的分析。

它不再是孤立地看一次购买行为，而是把 “谁、在何时、何地、买了什么、他是什么人” 所有这些信息串联起来，让你做出不仅精准、而且明智的决策。

数据仓库中的挖掘（Data Warehouse）

定位：面向主题、支持历史汇总与多维分析的存储。天然适合高层洞察与趋势预测。
方法：在立方体（Cube）上作切片/旋转，再叠加挖掘算法（OLAM：联机分析挖掘）。
价值：把“OLAP的快汇总”+“挖掘的找规律”合在一起，既快又有结论。

数据仓库中的挖掘，就是将“OLAP的宏观、快速洞察能力”与“数据挖掘的微观、深度规律发现能力”完美结合。

在关系—对象模型演进下的新型数据库

对象-关系/可扩类型：支持复杂对象、用户自定义类型/方法；可直接在库里存时间、空间、图像等富数据。
研究点：如何把这些复杂字段的比较/相似度/索引/抽象层级，和挖掘算法自然对接。

这种新型数据库就像给了我们一个能存储任何复杂事物的“万能工坊”，但随之而来的挑战是，我们必须为这个工坊里的每一种新工具（复杂数据类型）都配备一套新的 “使用说明书”（比较、索引、分层方法），并教会传统的挖掘算法如何按照这些新说明书来工作。

面向应用的新型“数据源”里的挖掘

空间/工程/日志/多媒体/时态序列等已经很常见。

典型需求：
时空：在时间+地理上找轨迹、热点与相关性；
工程/日志：长期监控，做健康度评估、异常预警；
多媒体：从内容特征中抽取可用标签与相似度，服务检索/推荐。

难点：数据大+结构复杂+半结构化，要有专用特征/索引/相似度与可扩模型。

面向这些新型数据源的挖掘，就像是从传统的“矿业”升级为现代的“尖端科研”。它要求我们针对每一种特定的数据环境（空间、媒体、日志等），打造一套专用的“科研仪器”（特征、索引、算法和模型），才能从这些更复杂、更海量的数据中，提取出前所未有的宝贵洞察。

Web 数据源中的挖掘（Web Mining）

数据特点：来源分散、格式多（结构化/半结构化/非结构化），变化快。

三大流派：
Web 结构挖掘：分析超链接结构（PageRank/HITS思想），找权威页/枢纽页、社区、主题图谱Web 使用挖掘：挖日志（URL、IP、时间等），做画像、导航优化、性能监测、异常检测
Web 内容挖掘：对文本/多媒体做主题、情感、摘要、实体抽取等（Text Mining/信息抽取）

关键难点：
异构数据源（不同站点风格各异）
半结构化（HTML/XML）
动态变化（页面/兴趣频繁更新）

粗糙集方法及其在挖掘中的应用

粗糙集理论的核心思想

想象一下，我们有一些信息不完整或模糊的对象。粗糙集提供了一种方法来描述这些“模糊”的集合。

它的核心工具是上近似和下近似：

下近似： 可以100%确定属于这个模糊集合的所有对象。这是该集合的核心部分。
上近似： 可能属于这个模糊集合的所有对象。这是该集合的边界部分，包含了所有不确定的对象。
通过这两个概念，一个模糊的集合就被一个清晰的“下近似”和一个更大的“上近似”框定起来了。

重要基本概念

1. 信息系统： 这就是我们的数据表。比如文中的汽车数据库表。

U: 所有行（对象）的集合，比如10辆汽车。
A: 所有列（属性）的集合，比如Power, Turbo, Weight。
V: 每个属性可能的取值，比如Power可以是HIGH, MEDIUM, LOW。
f: 信息函数，就是表格里每个单元格的值。比如f(1, Power) = HIGH。

2. 条件属性与决策属性：

条件属性 (C): 相当于我们分析问题的“原因”或“输入”。例子中是 {Power, Turbo}。
决策属性 (D): 相当于我们想预测的“结果”或“输出”。例子中是 {Weight}。

3. 等价类： 把所有在某些属性上取值完全相同的对象归为一组，这个组就是一个等价类。这就像我们按照某些特征给人分组一样。
基于条件属性的等价类 (E): 按(Power, Turbo)分组，得到了 E1, E2, E3, E4 四个组。
基于决策属性的等价类 (Y): 按Weight分组，得到了 Y1, Y2, Y3 三个组。

4. 约简： 寻找最小的属性组合，使得它划分出的等价类和原来所有属性划分出的效果一样。目的是为了简化规则，去掉冗余信息。

如何从粗糙集中生成规则

规则的形式是：如果 [条件]，那么 [决策]。
规则是通过比较条件等价类 (E) 和决策等价类 (Y) 的关系得出的。

规则的可信度 (cf) 如何计算？
可信度 (cf) = |E ∩ Y| / |E|
（即：在条件组E中，有多少个对象也属于决策组Y）

例子中的规则推导：

规则 r11：
条件 (E1): Power = HIGH 且 Turbo = YES -> 包含对象 {1, 5, 9}
决策 (Y1): Weight = MED -> 包含对象 {1, 5, 9}
分析： E1 中的所有对象 {1,5,9} 都在 Y1 中。所以这是一个确定性规则（可信度=1.0）
规则： Power = HIGH ∧ Turbo = YES → Weight = MED (cf = 3/3 = 1.0)

规则 r22：
条件 (E2): Power = LOW 且 Turbo = NO -> 包含对象 {2, 7, 10}
决策 (Y2): Weight = HEAVY -> 包含对象 {7, 8, 10}
分析： E2 中的对象 {2,7,10}，只有 {7,10} 在 Y2 中。对象2不在。所以这是一个不确定规则（可信度<1.0）
规则： Power = LOW ∧ Turbo = NO → Weight = HEAVY (cf = 2/3 ≈ 0.67)

规则 r23：
条件 (E2): Power = LOW 且 Turbo = NO -> 包含对象 {2, 7, 10}
决策 (Y3): Weight = LIGHT -> 包含对象 {2, 3, 4, 6}
分析： E2 中的对象 {2,7,10}，只有 {2} 在 Y3 中。
规则： Power = LOW ∧ Turbo = NO → Weight = LIGHT (cf = 1/3 ≈ 0.33)

规则 r43：
条件 (E4): Power = HIGH 且 Turbo = NO -> 包含对象 {4, 8}
决策 (Y3): Weight = LIGHT -> 包含对象 {2, 3, 4, 6}
分析： E4 中的对象 {4,8}，只有 {4} 在 Y3 中。
规则： Power = HIGH ∧ Turbo = NO → Weight = LIGHT (cf = 1/2 = 0.5)