当前位置: 首页 > news >正文

CAU数据挖掘第四章 分类问题

分类与预测的基本概念

解决分类问题的关键是构造一个合适的分类器: 从数据库到一组类别集的映射。
一般地, 这些类是被预先定义的、 非交叠的。
主要步骤

  1. 建立一个模型
  2. 用模型分类

其他步骤

  • 数据准备
  • 分类和预测方法的评估标准

有监督学习和无监督学习

有监督学习 (分类)
无监督学习 (聚类)

相似度与距离分类

相似性的定义

距离的分类算法

距离的分类算法

通过计算每个训练数据到待分类元组的距离, 取与待分类元组距离最近的k个训练数据, k个数据中哪个类别的训练数据占多数, 则待分类元组就属于哪个类别。
在这里插入图片描述

相似度度量

对象

属性:

  • 名词性属性
  • 二值
  • 顺序性属性
  • 数值属性

相似度度量定义

由距离度量变换而来的相似度度量

可以通过一个单调递减函数, 将距离转换成相似性度量, 相似性度量的取值一般在区间[0, 1]之间

属性之间的相似性度量

在这里插入图片描述

对象之间的相似性度量

对象通常是由多个属性来描述。 假定使用n个属性, 将每条记录看成n维空间中的1个点, 该空间下的
距离度量是1个函数d(x, y), 以空间中的2个点作为参数, 输出是一个实数值。

传统度量方法

二值属性的相似度度量

在这里插入图片描述

欧氏距离

在这里插入图片描述
在这里插入图片描述

余弦距离

在这里插入图片描述

Mahalanobis马氏距离

在这里插入图片描述

Jaccard相似度系数

在这里插入图片描述

海明距离

在这里插入图片描述

决策树分类

通过一个树型结构进行分类,如图所示:
在这里插入图片描述

ID3算法生成决策树

ID3算法中通过信息增益来判断用于分类的属性的顺序
信息增益的计算
在这里插入图片描述
在这里插入图片描述
原理:通过信息熵的方法可以计算出信息复杂度(属性值相同则复杂度低,不相同则复杂度高);
通过计算划分前和划分后的信息熵变化可以估计划分对于该属性的影响效果,从而可以判断某种划分的优先级。

C4.5算法生成决策树

用信息增益率来选择属性
在这里插入图片描述
SplitInfo(S,A)是一种衡量分裂是否均匀,分列是否过多的值,分裂越均匀,值越大;分裂越多,值越大。
在信息增益率中,该值用来惩罚分裂过多过均匀的属性。
能够完成对连续属性的离散化处理
在这里插入图片描述
后剪枝
后剪枝:待一棵树充分生长过后,将非叶子节点剪枝为叶子节点。
在这里插入图片描述
是否后剪枝依据:计算上式q(真实误差率)的上界,计算剪枝后的节点误差率e,判断e是否满足q的条件
CART算法和Gini指标
还没学会

总结

在这里插入图片描述

贝叶斯分类

贝叶斯后验的思想:假设一个医生统计自己看心脏病人的患病率是80%,那么当他看下一个心脏病人时自然认为这个病人患心脏病的概率是80%,这是先验概率。担当这个病人做完检查后成阳性,则患心脏病的概率提升为90%,这就是后验概率。
在这里插入图片描述
朴素贝叶斯分类器
朴素贝叶斯分类器只能在各个属性独立的情况下使用
工作原理:
首先将X认为是一个属性集
在这里插入图片描述
在这里插入图片描述
首先要计算出每个属性取值假设成立的概率,再通过上述公式计算得到。
另外如何处理连续值?
通过假设连续值服从高斯分布算出其概率密度,将概率密度作为其概率值。
在这里插入图片描述
在这里插入图片描述
贝叶斯信念网络
当属性间不是独立时使用
用信念网络揭示其书属性间的依赖关系
在这里插入图片描述
在这里插入图片描述

神经网络

其他方法

基于关联的分类方法
k −最近邻分类法
基于案例推理
遗传算法
粗糙集算法
模糊集合算法

预测算法

与分类算法的异同
在这里插入图片描述

线性与多元回归

在这里插入图片描述

非线性回归

在这里插入图片描述

http://www.dtcms.com/a/277138.html

相关文章:

  • 【论文阅读47】-微震事件的时间、空间和强度(能量)预测
  • Java设计模式之行为型模式(命令模式)
  • 单例模式:确保全局唯一实例
  • 第三章-提示词-探秘大语言基础模型:认知、分类与前沿洞察(9/36)
  • 数据结构 Map和Set
  • 代理模式:控制对象访问
  • 小车避障功能的实现(第七天)
  • 使用微信免费的图像处理接口,来开发图片智能裁剪和二维码/条码识别功能,爽歪歪
  • Typecho分类导航栏开发指南:从基础到高级实现
  • 【零基础入门unity游戏开发——unity3D篇】光照探针 (Light Probes)实现动态物体的间接光照
  • python爬取新浪财经网站上行业板块股票信息的代码
  • Java 大视界 -- Java 大数据在智能教育学习资源智能分类与标签优化中的应用(346)
  • Pytorch实现感知器并实现分类动画
  • Vivado ILA抓DDR信号(各种IO信号:差分、ISERDES、IOBUFDS等)
  • MacOS使用Multipass快速搭建轻量级k3s集群
  • 在Intel Mac的PyCharm中设置‘add bin folder to the path‘的解决方案
  • COZE token刷新
  • mac上BRPC的CMakeLists.txt优化:解决Protobuf路径问题
  • composer如何安装以及举例在PHP项目中使用Composer安装TCPDF库-优雅草卓伊凡
  • 数据结构1:线性表的顺序存储的定义以及基本操作
  • [Linux 入门] Linux 引导过程、系统管理与故障处理全解析
  • Python 数据建模与分析项目实战预备 Day 4 - EDA(探索性数据分析)与可视化
  • ansible自动化部署考试系统前后端分离项目
  • 09.获取 Python 列表的首尾元素与切片技巧
  • 论文Review 3DGSSLAM GauS-SLAM: Dense RGB-D SLAM with Gaussian Surfels
  • OkHttp SSE 完整总结(最终版)
  • JAVA学习笔记 首个HelloWorld程序-002
  • javaweb-day10案例
  • Linux 系统——管理 MySQL
  • 入职华为od一个月的感受