当前位置：首页 > news >正文

机器学习算法03：聚类算法

news 2025/8/4 13:37:22

一、引言

聚类算法是一类无监督学习算法，旨在将数据集中的样本划分为多个组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。其主要作用是发现数据的内在结构和分布规律，为数据分析、模式识别、数据挖掘等领域提供重要支持。

二、常见聚类算法类型

划分聚类算法

K-Means 算法：是最经典的划分聚类算法之一。它预先设定要划分的簇的数量 K，随机选取 K 个点作为初始聚类中心。然后，计算每个样本到各个聚类中心的距离，将样本分配到距离最近的聚类中心所在的簇。接着，重新计算每个簇的中心（通常是簇内所有样本的均值）。不断重复上述过程，直到聚类中心不再变化或达到预设的迭代次数。例如，在对一群客户的消费数据进行聚类时，可通过 K-Means 算法将客户按消费行为特点分为 K 个不同的群体。
K-Medoids 算法：与 K-Means 类似，但 K-Medoids 算法选择簇内实际存在的样本点作为簇中心（称为 medoid），而不是像 K-Means 那样计算均值。这种方式对离群点的敏感度更低，因为均值易受离群点影响，而 medoid 是实际样本点。例如在地理坐标数据聚类中，K-Medoids 能更好地应对可能存在的异常坐标点。

层次聚类算法

凝聚式层次聚类：从每个样本作为一个单独的簇开始，逐步合并相似的簇。通过计算簇与簇之间的距离（如最小距离、最大距离、平均距离等），每次将距离最近的两个簇合并，直到所有样本都在一个簇中或满足特定停止条件。例如在对生物物种进行分类时，可从每个物种作为一个簇，根据物种间的相似性逐步合并，构建出物种分类的层次结构。
分裂式层次聚类：与凝聚式相反，它从包含所有样本的一个大簇开始，逐步分裂成更小的簇。根据一定的分裂准则（如最大化簇间差异），将一个大簇分裂成两个子簇，不断重复这个过程，直到每个簇只包含一个样本或满足停止条件。在图像分割任务中，可利用分裂式层次聚类将一幅图像逐步分割成具有不同特征的区域。

密度聚类算法

DBSCAN 算法：基于数据点的密度进行聚类。它将数据空间划分为核心点、边界点和噪声点。核心点是在一定半径邻域内包含足够数量样本的点；边界点是在核心点邻域内，但自身邻域内样本数量不足的点；噪声点是不属于任何核心点邻域的点。DBSCAN 从一个核心点出发，将密度相连的点聚成一个簇，能发现任意形状的簇，并且能有效识别噪声点。例如在地理信息系统中，可利用 DBSCAN 对城市中的建筑物分布进行聚类，能很好地处理建筑物分布不规则的情况。
OPTICS 算法：是 DBSCAN 的扩展，它通过为每个点计算一个可达距离和核心距离，构建出一个有序的点集。在聚类时，可以根据不同的密度阈值从这个有序点集中提取出不同的簇，不需要像 DBSCAN 那样预先指定聚类参数，能更灵活地处理不同密度分布的数据。例如在分析社交网络用户关系数据时，OPTICS 能根据用户之间联系的紧密程度，更准确地发现不同密度的用户群体。

网格聚类算法

STING 算法：将数据空间划分为多个网格单元，预先计算每个网格单元的统计信息（如均值、方差等）。通过这些统计信息来进行聚类，计算速度快，适用于大规模数据。例如在对海量的气象数据进行聚类分析时，可将地理区域划分为网格单元，利用每个网格单元内气象数据的统计特征进行聚类，快速发现不同气象特征的区域。
WaveCluster 算法：结合了信号处理中的小波变换思想。它先将数据投影到网格上，然后对网格单元进行小波变换，根据小波系数来确定簇的边界。能有效处理高维数据和噪声，在高维数据聚类分析中有较好表现，如在基因表达数据聚类中，可通过 WaveCluster 算法挖掘出具有相似基因表达模式的基因簇。

三、聚类算法的评估指标

外部指标：需要借助已知的真实类别标签来评估聚类结果。

兰德指数（Rand Index，RI）：计算聚类结果与真实类别标签之间的一致性程度。RI 值越接近 1，表示聚类结果与真实情况越吻合；RI 值为 0，表示聚类结果与随机划分没有区别。例如在对图像数据集进行聚类后，通过与图像的真实类别标签对比计算 RI 值，评估聚类效果。
调整兰德指数（Adjusted Rand Index，ARI）：对 RI 进行了调整，消除了随机因素的影响。ARI 值范围在 [-1, 1] 之间，值越高表示聚类结果与真实类别越相似。在评估复杂数据集的聚类效果时，ARI 比 RI 更能准确反映聚类质量。

内部指标：仅依据聚类结果本身来评估。

轮廓系数（Silhouette Coefficient）：综合考虑了样本与同簇内其他样本的紧密程度（凝聚度）以及与其他簇的分离程度。轮廓系数取值范围在 [-1, 1] 之间，值越接近 1，表示样本聚类效果越好，即样本既紧密聚集在所属簇内，又与其他簇有明显区分。例如在对客户数据进行聚类后，通过计算轮廓系数来评估聚类的质量，判断聚类结果是否合理。
Calinski-Harabasz 指数：通过计算簇内方差和簇间方差的比值来评估聚类效果。该指数值越大，说明聚类效果越好，即簇内样本紧密，簇间分离明显。在比较不同聚类算法对同一数据集的聚类效果时，Calinski-Harabasz 指数是一个常用的评估指标。

四、聚类算法的应用场景

市场细分：企业可根据客户的年龄、性别、消费行为、购买偏好等多维度数据，利用聚类算法将客户分为不同的细分市场。针对不同细分市场的特点，制定个性化的营销策略，提高市场推广效果和客户满意度。例如，将客户聚类为高消费、低消费、频繁购买、偶尔购买等不同群体，为每个群体提供定制化的产品推荐和促销活动。
图像识别与处理：在图像分割任务中，聚类算法可将图像中具有相似颜色、纹理等特征的像素点聚成一个区域，实现对图像的分割。例如，将一幅自然风景图像分割为天空、草地、树木等不同的区域，有助于图像分析和目标识别。在图像检索中，也可通过聚类算法将相似的图像聚成一组，提高检索效率。
生物信息学：对基因表达数据进行聚类，可发现具有相似表达模式的基因簇，有助于研究基因的功能和生物过程。在蛋白质结构分类中，聚类算法能将具有相似结构的蛋白质聚在一起，为蛋白质功能预测和药物研发提供支持。例如，通过聚类分析发现与某种疾病相关的基因簇，进一步研究这些基因在疾病发生发展中的作用机制。
异常检测：在数据集中，异常点通常与大多数正常点的特征分布不同。聚类算法可将正常数据点聚成簇，那些远离这些簇的点就可能被视为异常点。例如在网络流量监测中，通过聚类算法发现与正常流量模式不同的异常流量，及时检测网络攻击或故障。在信用卡交易数据中，也可利用聚类算法识别可能的欺诈交易。
文本挖掘：将文本数据（如新闻文章、学术论文、社交媒体帖子等）转化为向量形式后，聚类算法可将主题相似的文本聚成一组。这有助于文本分类、信息检索和话题发现。例如，将大量新闻文章聚类为政治、经济、文化、体育等不同主题的类别，方便用户快速浏览和获取感兴趣的信息。在舆情分析中，通过聚类算法将相似观点的文本聚类，能更好地了解公众对某一事件的看法和态度分布。