当前位置：首页 > news >正文

机器学习_18 K均值聚类知识点总结

news 2025/7/8 14:51:45

K均值聚类（K-means Clustering）是一种经典的无监督学习算法，广泛应用于数据分组、模式识别和降维等领域。它通过将数据划分为K个簇，使得簇内相似度高而簇间相似度低。今天，我们就来深入探讨K均值聚类的原理、实现和应用。

一、K均值聚类的基本概念

1.1 K均值聚类的目标

K均值聚类的目标是将数据集划分为K个簇，使得每个簇内的数据点尽可能接近，而不同簇之间的数据点尽可能远离。具体来说，K均值聚类最小化以下目标函数：

其中，Ck 是第k个簇，μk 是第k个簇的质心（均值），xi 是数据点。

1.2 K均值聚类的工作原理

K均值聚类通过以下步骤实现：

初始化质心：随机选择K个数据点作为初始质心。
分配数据点：计算每个数据点与各个质心的距离，将数据点分配到最近的质心所代表的簇。
更新质心：重新计算每个簇的质心为该簇所有数据点的均值。
重复步骤2和3：直到质心不再变化或达到预定义的停止条件（如最大迭代次数）。

二、K均值聚类的实现与案例

2.1 Python实现

以下是使用Python和Scikit-Learn库实现K均值聚类的代码示例：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# 创建示例数据
X = np.array([[1, 2], [1.5, 1.8], [5, 8], [8, 8], [1, 0.6], [9, 11]])

# 创建KMeans对象，指定簇的数量为2
kmeans = KMeans(n_clusters=2)

# 对数据进行聚类
kmeans.fit(X)

# 获得每个样本所属的簇标签
labels = kmeans.labels_

# 获得质心的位置
centroids = kmeans.cluster_centers_

# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], c='red', marker='x', s=200)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('K-means Clustering')
plt.show()

2.2 案例分析

假设我们有一组数据，记录了用户的购买行为和消费金额。我们希望通过K均值聚类算法将用户分为不同的群体，以便进行针对性的营销。

数据准备：收集用户的购买行为和消费金额等特征。
模型训练：使用K均值聚类算法对数据进行聚类，选择合适的簇数量K。
结果分析：通过可视化和统计分析，了解每个簇的特征和行为模式。
应用：根据不同簇的用户特征，制定个性化的营销策略。

三、选择K值的方法

3.1 肘部法（Elbow Method）

肘部法通过绘制不同K值下的目标函数（平方误差和）曲线，寻找曲线的“肘点”。肘点是指曲线开始变得平缓的点，表示增加更多的簇对减少误差的帮助较小。

3.2 轮廓系数（Silhouette Coefficient）

轮廓系数衡量了每个样本与其所属簇内其他样本的相似度与最近的其他簇内样本的相异度。选择轮廓系数最大的K值作为最佳簇数量。

3.3 Gap统计量（Gap Statistic）

Gap统计量通过比较数据集的簇内距离与随机生成数据的簇内距离的差异，选择Gap值最大的K值。

四、K均值聚类的局限性与优化

4.1 局限性

对初始质心敏感：不同的初始质心可能导致不同的聚类结果。
需要预先指定簇的数量K：选择合适的K值可能是一个挑战。
对非凸形状簇效果差：K均值聚类假设簇为球形或凸形状，对于非凸形状的簇效果可能较差。
对噪声和离群点敏感：可能会将噪声或离群点错误地分配到簇中。

4.2 优化方法

多次运行：多次运行K均值聚类，选择目标函数值最小的结果。
改进的初始化方法：如K-Means++，通过选择距离较远的初始质心来提高聚类效果。
数据预处理：标准化或归一化数据，减少特征尺度差异的影响。
选择合适的K值：通过肘部法、轮廓系数或Gap统计量选择最优的K值。

五、K均值聚类的应用场景

5.1 数据分组

K均值聚类广泛应用于将数据分为不同的组，例如：

市场细分：根据消费者的购买行为和偏好将市场细分为不同的目标群体。
图像分割：将图像中的像素分为不同的区域，以识别和分离不同的对象。
文档聚类：将文本数据分为不同的主题或类别。

5.2 模式识别

K均值聚类可以用于识别数据中的模式和结构，例如：

异常检测：通过聚类识别数据中的异常点或离群点。
基因数据分析：将基因表达数据分为不同的簇，以发现基因的功能模块。

5.3 特征工程

K均值聚类可以用于特征降维和数据压缩，帮助简化数据并提取关键信息。

👏觉得文章对自己有用的宝子可以收藏文章并给小编点个赞！

👏想了解更多统计学、数据分析、数据开发、数据治理、机器学习算法、深度学习等有关知识的宝子们，可以关注小编，希望以后我们一起成长！

http://www.dtcms.com/a/22988.html

相关文章：

el-tree选中数据重组成树

s1K 数据集：是一个用于提升语言模型推理能力的高质量数据集。包含 1,000 个问题，每个问题都配有详细的推理路径和答案。

共同性思考：数据标注研究与数据标注工作者工作范式思考

MicroPython+ESP32：一.开发环境的搭建

使用synchronized解决高并发场景

线性模型 - 二分类问题的损失函数

基于JAVA的流浪动物救助平台的设计与实现（LW+源码+讲解）

14.学成在线开发小结

Python异步编程优雅实践

安装 Docker Desktop 修改默认安装目录到指定目录

机械学习基础-6.更多分类-数据建模与机械智能课程自留

Android Studio安装配置及运行

mysql 学习16 视图，存储过程，存储函数，触发器

基础排序算法

js第十二题

git版本控制工具介绍

Python简单语法

从二叉树到红黑树

【R语言】GitHub Copilot安装-待解决

6.2.2 E-R模型

系统思考—系统结构

Ubuntu22.04配置cuda/cudnn/pytorch

799. 最长连续不重复子序列

iOS 中使用 FFmpeg 的高级功能 - 滤镜（Filters）

切面收集日志

MapStruct 中 @BeforeMapping 和 @AfterMapping 注解的使用详解

大数据学习(49) - Flink按键分区状态（Keyed State）

【Java基础】数组性能优化

DeepSeek崛起的本质分析：AI变局中的中国机会

C 程序多线程拆分文件