当前位置：首页 > news >正文

聚类里面的一些相关概念介绍阐述

news 2025/7/27 12:28:42

一、性能度量

外部指标：聚类结果与某个“参考模型”进行比较；
- $Jaccard$ 系数： $J(h_i,h_j)=\frac{N^{11}}{N^{01}+N^{10}+N^{11}}$ ，其中的 $0,1$ 表示样本是否属于某类簇；
- $FM$ 指数： $FM=\sqrt{\frac{TP}{TP+FP}\times\frac{TP}{TP+FN}}$ ，其中 $TP$ 表示样本在两个聚类结果中都是同一类簇， $FP$ 表示在其中一个聚类结果中同一类簇，在另一结果反之， $FN$ 也是；
- $Rand$ 指数；
内部指标：直接考察聚类结果；
- $DB$ 指数、 $Dunn$ 指数；

二、距离计算

非负性、同一性、对称性、直递性（就是类似三角形两边之和大于第三边的理解，按三个顶点距离来理解）。
闵可夫斯基距离（用于有序属性）、欧氏距离、曼哈顿距离（和数学里面的公式一致）。

三、原型聚类

$k$ 均值算法：将数据划分为 $K$ 个互不重叠的簇，使得同一簇内的数据点尽可能相似，不同簇的数据点尽可能不同，其目标是要最小化簇内平方和：

$\mathrm{WCSS}=\sum^{K}_{i=1}\sum_{x\in C_i}||x-\mu_i||^2$

其中 $K$ 是预设的簇（类别）的数量， $C_i$ 就是第 $i$ 个簇， $\mu_i$ 就是第 $i$ 个簇的质心， $x$ 是数据点。

学习向量量化：目标是找到一组原型向量（每个原型对应一个类别），使得每个原型尽可能靠近其所属类别的样本，以及不同类别的原型尽可能远离彼此；最终分类时，新样本被分配给最近原型对应的类别。
高斯混合聚类：它假设所有数据点是由多个高斯分布（正态分布）混合生成的。与 $K-means$ 等硬聚类算法不同， $GMM$ 允许一个数据点以一定概率属于多个簇，因此更适合处理重叠簇或非球形簇的复杂数据分布。

四、密度聚类

基于数据点空间分布的聚类方法，其核心思想是将高密度区域的数据点划分为同一簇，并识别低密度区域作为簇间的分隔。与K均值等基于距离的算法不同，密度聚类无需预先指定簇数量，且能发现任意形状的簇，同时有效处理噪声和离群点。

五、层次聚类

通过逐层分解或合并数据来构建聚类结构的算法，不需要预先指定簇的数量（ $K$ 值），最终结果可以用树状图直观展示；
凝聚式（自底向上）：
- 初始时，每个数据点视为一个独立的簇；
- 逐步合并距离最近的簇，直到所有点聚为一类；
分裂式（自顶向下）：
- 初始时，所有数据点属于一个簇；
- 递归地分裂簇，直到每个点单独成簇（计算复杂度高，较少使用）；

http://www.dtcms.com/a/300178.html

相关文章：

杰理蓝牙耳机开发--三轴加速度传感器与IIC通信

Python：PyAutoGUI模拟鼠标移动点击事件，程序运行后，如何获取鼠标控制权了？

Redis的数据淘汰策略是什么？有哪些？

昇思学习营-【模型开发与适配】学习心得_20250724

window上建立git远程仓库

Sklearn 机器学习数值指标 entropy熵函数

Linux网络-------1.socket编程基础---（TCP-socket）

base64魔改算法 | jsvmp日志分析并还原

在 Dell PowerEdge T440 上通过 iDRAC9 安装 Proxmox VE

Flutter开发实战之网络请求与数据处理

bmp280的压力数据采集（i2c设备驱动+设备树编写）

ACO-OFDM 的**频带利用率**（单位：bit/s/Hz）计算公式

建筑施工场景下漏检率↓76%！陌讯多模态融合算法在工程安全监控的落地实践

OpHReda精准预测酶最佳PH

进制间的映射关系

2025牛客暑期多校第4场——G

Polyhedral Approaches in Combinatorial Optimization组合优化中的多面体方法（下）

Java实现大根堆与小根堆详解

每日面试题15：如何解决堆溢出？

如何检查服务器数据盘是否挂载成功？

Android-三种持久化方式详解

【硬件-笔试面试题】硬件/电子工程师，笔试面试题-32，（知识点：模数转换器，信噪比，计算公式，）

深入理解C语言快速排序与自省排序（Introsort）

【每天一个知识点】GAN（生成对抗网络，Generative Adversarial Network）

Compose笔记(三十八)--CompositionLocal

安卓学习记录1——持续更新ing

React组件中的this指向问题

三防平板支持DMR对讲有什么用？实现高效集群调度

如何理解“测试场景”与“测试要点”的区别和联系？

Linux系统架构核心全景详解