当前位置: 首页 > news >正文

CAU数据挖掘 第五章 聚类问题

基本概念

在这里插入图片描述
性质:
在这里插入图片描述
应用:
在这里插入图片描述

划分聚类

在这里插入图片描述

k-means算法( 基于质心的技术)

用于划分的k-means算法, 其中每个簇中心都用簇中所有对象的均值来表示。
在这里插入图片描述

优缺点

改进

k-medoids算法( 基于代表对象的技术)

在这里插入图片描述
PAM是 k-medoids算法 的算法之一
性能分析:
在这里插入图片描述
CLARA方法-大数据集合-取样
在这里插入图片描述

层次聚类算法

在这里插入图片描述
通过建树或者拆树的方法进行聚类

AGNES算法

由下而上的聚类
在这里插入图片描述

DIANA算法

在这里插入图片描述
如果要分出k个聚类,则每次从旧聚类(最开始的大聚类)中选出中心点进行聚类,选k - 1次

BIRCH算法

提取每个点的聚类特征( Clustering Feature, CF)建立聚类特征树( Clustering Feature Tree, CF树),通过树划分的叶子节点簇进行聚类,从而提高性能。
在这里插入图片描述
在这里插入图片描述
CF树:
在这里插入图片描述
注意,叶子结点是CF簇
如何建树:
在这里插入图片描述
如何分裂:
叶节点阈值(T)为3,则下图中叶节点分裂
在这里插入图片描述
在这里插入图片描述
内部节点阈值(L)为3,图中为4,发生分裂
在这里插入图片描述
在这里插入图片描述

密度聚类

只要邻近区域的密度( 对象或数据点的数目) 超过某个阀值, 就把它加到与之相近的聚类中。
也就是说, 对给定类中的每个数据点, 在一个给定范围的区域中必须至少包含某个数目的点。

DBSCAN

几个重要概念:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
算法流程:
在这里插入图片描述
缺点:

  • 对参数敏感,设置不同的参数,聚类效果差异大
  • 只能发现密度相似的类

OPTICS算法

通过点排序识别聚类结构。
思想:计算一个点周围的点到这个点的可达距离,并进行排序,直到算完所有可以到达的点;再用没有计算的点计算周围可以到达的点的距离,如此重复直到所有点算完。

核心距离与可达距离

在这里插入图片描述

距离排序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
将排序后的队列进行数据可视化:
在这里插入图片描述

DENCLUE算法: 影响函数

网格聚类

STING算法-统计信息网格

在这里插入图片描述

在这里插入图片描述

WaveCluster算法

在这里插入图片描述
在这里插入图片描述
流程:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

模型聚类

模型聚类主要有两类: 统计学方法( EM和COBWEB算法) 和神经网络方法( SOM算法) 。

EM算法

在这里插入图片描述

COBWEB算法

SOM算法

模糊聚类

聚类估计

估计聚类趋势

霍普金斯统计量
即判断数据是否可聚类
在这里插入图片描述
计算原理:
在这里插入图片描述
可以看到当样本点与实际点距离很短,均匀点与实际点很远时,H偏大,数据集更又可能聚类。

确定簇数

简单的经验方法

在这里插入图片描述

肘方法

在这里插入图片描述

测定聚类质量

在这里插入图片描述

http://www.dtcms.com/a/280025.html

相关文章:

  • vscode里面怎么配置ssh步骤
  • Python+Selenium自动化爬取携程动态加载游记
  • python实现自动化sql布尔盲注(二分查找)
  • js最简单的解密分析
  • 分支战略论:Git版本森林中的生存法则
  • document.documentElement详解
  • Webshell连接工具原理
  • 渗透笔记1-4
  • html js express 连接数据库mysql
  • 【算法训练营Day12】二叉树part2
  • 进程---基础知识+命令+函数(fork+getpid+exit+wait+exec)
  • 100道K8S面试题
  • LVS初步学习
  • google浏览器::-webkit-scrollbar-thumb设置容器滚动条滑块不生效
  • langflow搭建带记忆功能的机器人
  • 【React Native】环境变量和封装 fetch
  • Knife4j快速入门
  • 【深度学习:进阶篇】--4.4.集束搜索(Beam Search)
  • 深入探索ZYNQ网络通信:四大实现方案与创新应用
  • VMWare 使用 U 盘 PE 系统安装 Win 11 ESD 镜像
  • 日常--PyCharm清除attach记录
  • Linux进程优先级机制深度解析:从Nice值到实时调度
  • 详解从零开始实现循环神经网络(RNN)
  • 实现高效、可靠的基于骨骼的人体姿态建模(第二章 基于三维人体姿态回归的语义图卷积网络)
  • 智慧城市建设关键支撑,楼宇自控系统的战略性技术价值解读
  • 用Joern执行CPGQL找到C语言中不安全函数调用的流程
  • Pythonic:Python 语言习惯和哲学的代码风格
  • OFDM系统中关于信号同步的STO估计与CFO估计的MATLAB仿真
  • 关于股票交易的人脉分析
  • NW831NW910美光固态闪存NW887NW888