聚类里面的一些相关概念介绍阐述
一、性能度量
- 外部指标:聚类结果与某个“参考模型”进行比较;
系数:
,其中的
表示样本是否属于某类簇;
指数:
,其中
表示样本在两个聚类结果中都是同一类簇,
表示在其中一个聚类结果中同一类簇,在另一结果反之,
也是;
指数;
- 内部指标:直接考察聚类结果;
指数、
指数;
二、距离计算
- 非负性、同一性、对称性、直递性(就是类似三角形两边之和大于第三边的理解,按三个顶点距离来理解)。
- 闵可夫斯基距离(用于有序属性)、欧氏距离、曼哈顿距离(和数学里面的公式一致)。
三、原型聚类
均值算法:将数据划分为
个互不重叠的簇,使得同一簇内的数据点尽可能相似,不同簇的数据点尽可能不同,其目标是要最小化簇内平方和:
其中 是预设的簇(类别)的数量,
就是第
个簇,
就是第
个簇的质心,
是数据点。
- 学习向量量化:目标是找到一组原型向量(每个原型对应一个类别),使得每个原型尽可能靠近其所属类别的样本,以及不同类别的原型尽可能远离彼此;最终分类时,新样本被分配给最近原型对应的类别。
- 高斯混合聚类:它假设所有数据点是由多个高斯分布(正态分布)混合生成的。与
等硬聚类算法不同,
允许一个数据点以一定概率属于多个簇,因此更适合处理重叠簇或非球形簇的复杂数据分布。
四、密度聚类
- 基于数据点空间分布的聚类方法,其核心思想是将高密度区域的数据点划分为同一簇,并识别低密度区域作为簇间的分隔。与K均值等基于距离的算法不同,密度聚类无需预先指定簇数量,且能发现任意形状的簇,同时有效处理噪声和离群点。
五、层次聚类
- 通过逐层分解或合并数据来构建聚类结构的算法,不需要预先指定簇的数量(
值),最终结果可以用树状图直观展示;
- 凝聚式(自底向上):
- 初始时,每个数据点视为一个独立的簇;
- 逐步合并距离最近的簇,直到所有点聚为一类;
- 分裂式(自顶向下):
- 初始时,所有数据点属于一个簇;
- 递归地分裂簇,直到每个点单独成簇(计算复杂度高,较少使用);