当前位置: 首页 > news >正文

聚类里面的一些相关概念介绍阐述

一、性能度量

  • 外部指标:聚类结果与某个“参考模型”进行比较;
    • Jaccard 系数: J(h_i,h_j)=\frac{N^{11}}{N^{01}+N^{10}+N^{11}}其中的 0,1 表示样本是否属于某类簇;
    • FM 指数:FM=\sqrt{\frac{TP}{TP+FP}\times\frac{TP}{TP+FN}}其中 TP 表示样本在两个聚类结果中都是同一类簇,FP 表示在其中一个聚类结果中同一类簇,在另一结果反之,FN 也是;
    • Rand 指数
  • 内部指标:直接考察聚类结果;
    • DB 指数、Dunn 指数

二、距离计算

  • 非负性、同一性、对称性、直递性(就是类似三角形两边之和大于第三边的理解,按三个顶点距离来理解)。
  • 闵可夫斯基距离(用于有序属性)、欧氏距离、曼哈顿距离(和数学里面的公式一致)。

三、原型聚类

  • k 均值算法:将数据划分为 K 个互不重叠的簇,使得同一簇内的数据点尽可能相似,不同簇的数据点尽可能不同,其目标是要最小化簇内平方和:

\mathrm{WCSS}=\sum^{K}_{i=1}\sum_{x\in C_i}||x-\mu_i||^2

        其中 K 是预设的簇(类别)的数量,C_i 就是第 i 个簇,\mu_i 就是第 i 个簇的质心,x 是数据点。

  • 学习向量量化:目标是找到一组原型向量(每个原型对应一个类别),使得每个原型尽可能靠近其所属类别的样本,以及不同类别的原型尽可能远离彼此;最终分类时,新样本被分配给最近原型对应的类别。
  • 高斯混合聚类:它假设所有数据点是由多个高斯分布(正态分布)混合生成的。与 K-means 等硬聚类算法不同,GMM 允许一个数据点以一定概率属于多个簇,因此更适合处理重叠簇非球形簇的复杂数据分布。

四、密度聚类

  • 基于数据点空间分布的聚类方法,其核心思想是将高密度区域的数据点划分为同一簇,并识别低密度区域作为簇间的分隔。与K均值等基于距离的算法不同,密度聚类无需预先指定簇数量,且能发现任意形状的簇,同时有效处理噪声和离群点。

五、层次聚类

  • 通过逐层分解或合并数据来构建聚类结构的算法,不需要预先指定簇的数量(K 值),最终结果可以用树状图直观展示;
  • 凝聚式(自底向上):
    • 初始时,每个数据点视为一个独立的簇;
    • 逐步合并距离最近的簇,直到所有点聚为一类;
  • 分裂式(自顶向下):
    • 初始时,所有数据点属于一个簇;
    • 递归地分裂簇,直到每个点单独成簇(计算复杂度高,较少使用);
http://www.dtcms.com/a/300178.html

相关文章:

  • 杰理蓝牙耳机开发--三轴加速度传感器与IIC通信
  • Python:PyAutoGUI模拟鼠标移动点击事件,程序运行后,如何获取鼠标控制权了?
  • Redis的数据淘汰策略是什么?有哪些?
  • 昇思学习营-【模型开发与适配】学习心得_20250724
  • window上建立git远程仓库
  • Sklearn 机器学习 数值指标 entropy熵函数
  • Linux网络-------1.socket编程基础---(TCP-socket)
  • base64魔改算法 | jsvmp日志分析并还原
  • 在 Dell PowerEdge T440 上通过 iDRAC9 安装 Proxmox VE
  • Flutter开发实战之网络请求与数据处理
  • bmp280的压力数据采集(i2c设备驱动+设备树编写)
  • ACO-OFDM 的**频带利用率**(单位:bit/s/Hz)计算公式
  • 建筑施工场景下漏检率↓76%!陌讯多模态融合算法在工程安全监控的落地实践
  • OpHReda精准预测酶最佳PH
  • 进制间的映射关系
  • 2025牛客暑期多校第4场——G
  • Polyhedral Approaches in Combinatorial Optimization组合优化中的多面体方法(下)
  • Java实现大根堆与小根堆详解
  • 每日面试题15:如何解决堆溢出?
  • 如何检查服务器数据盘是否挂载成功?
  • Android-三种持久化方式详解
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-32,(知识点:模数转换器,信噪比,计算公式,)
  • 深入理解C语言快速排序与自省排序(Introsort)
  • 【每天一个知识点】GAN(生成对抗网络,Generative Adversarial Network)
  • Compose笔记(三十八)--CompositionLocal
  • 安卓学习记录1——持续更新ing
  • React组件中的this指向问题
  • 三防平板支持DMR对讲有什么用?实现高效集群调度
  • 如何理解“测试场景”与“测试要点”的区别和联系?
  • Linux系统架构核心全景详解