当前位置: 首页 > news >正文

Sklearn 机器学习 数据聚类 KMeans实现聚类

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖

在这里插入图片描述

本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】


在这里插入图片描述

使用 Sklearn 实现 KMeans 聚类算法实战指南

聚类是一种无监督学习方法,广泛应用于客户分群、图像压缩、异常检测等任务中。

在本篇博文中,我们将通过 Sklearn 的 KMeans 方法,逐步完成一个聚类分析的完整流程,帮助你掌握实际应用技巧。


🧩 一、什么是聚类?

聚类(Clustering)是指将数据集划分为若干个(簇,Cluster),使得同一组中的样本相似度更高,不同组之间的样本差异更大。

它是一种无监督学习方法,区别于分类,它不依赖于目标标签,只通过样本之间的特征相似度划分数据。

常见聚类算法包括:

  • KMeans(重点讲解)
  • DBSCAN
  • 层次聚类(Hierarchical Clustering)
  • GMM(Gaussian Mixture Model)

📐 二、KMeans 算法原理简述

KMeans(K均值聚类) 是最经典、使用最广泛的聚类算法之一,其核心思想是:

  1. 给定聚类簇数 K
  2. 随机初始化 K 个聚类中心;
  3. 分配:将每个样本划分到最近的聚类中心;
  4. 更新:重新计算每个聚类中心;
  5. 重复执行步骤 3 和 4,直到聚类中心收敛或达到迭代次数。

优点:

  • 简单高效,适用于大规模数据;
  • 可解释性强,易于可视化。

缺点:

  • 需预先指定 K
  • 对异常值敏感;
  • 只适用于凸形簇。

🛠️ 三、Sklearn 中使用 KMeans 聚类的步骤

我们以一组二维模拟数据为例,演示如何用 sklearn.cluster.KMeans 完成聚类操作。

导入必要库

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

生成聚类样本数据

# 构造数据:3 个聚类中心,每个簇有 100 个点
X, y_true = make_blobs(n_samples=300, centers=3, cluster_std=0
http://www.dtcms.com/a/313098.html

相关文章:

  • wav音频格式中,ACM波形、A/mu-Law Wave、Windows PCM、Microsoft ADPCM的区别
  • 《使用Qt Quick从零构建AI螺丝瑕疵检测系统》——9. 接入真实硬件:驱动USB摄像头
  • LeetCode 分类刷题:2824. 统计和小于目标的下标对数目
  • Go语言--语法基础7--函数定义与调用--自定义函数
  • Go语言实战案例:TCP服务器与客户端通信
  • HoloLens+vuforia打包后遇到的问题
  • 图像、视频、音频多模态大模型中长上下文token压缩方法综述
  • Connection refused: no further information: localhost/127.0.0.1:2375
  • Git的安装和配置
  • JavaWeb开发
  • XSS-DOM 2
  • [硬件电路-150]:数字电路 - 数字电路与模拟电路的异同
  • 洛谷 B3841:[GESP202306 二级] 自幂数判断
  • 当Windows远程桌面出现“身份验证错误。要求的函数不受支持”的问题
  • 方差 协方差矩阵是什么
  • java的隐式类型转换和强制转换类型
  • 科威特塔观测指南:412米高空俯瞰石油城变迁
  • 在AI技术快速迭代的背景下,如何通过RAG技术提升模型的实时性和准确性?从Naive RAG到Modular RAG:AI技术进化的关键路径
  • 生成式人工智能展望报告-欧盟-04-社会影响与挑战
  • 86、信息系统建设原则
  • Java 中的多态性及其实现方式
  • AI + 云原生:正在引爆下一代应用的技术革命
  • 中国计算机学会杭州分部副主席朱霖潮:多模态大模型的研究进展与未来
  • k8s+isulad 国产化技术栈云原生技术栈搭建4-添加worker节点
  • Java函数式编程之【Stream终止操作】【上】【简单约简】
  • ethtool,lspci,iperf工具常用命令总结
  • 前端面试手撕题目全解析
  • CXGrId中按回车控制
  • 微店所有店铺内的商品数据API接口
  • 宝马集团与SAP联合打造生产物流数字化新标杆