当前位置：首页 > news >正文

【聚类】 K-means

news 2025/10/17 0:56:58

K-means

文章目录

K-means
- 1. 算法介绍
- 2. 公式及原理
- 3. 伪代码

1. 算法介绍

背景与目标
K-means 是最经典、最常用的原型聚类（prototype-based clustering）算法之一，由 Stuart Lloyd 于1957年提出，1982年被广泛推广。其核心目标是：

将给定的 $n$ 个数据点划分为 $K$ 个簇，使得簇内样本的相似度（通常用欧氏距离）最大化、簇间差异最大化。
应用场景
- 客户分群、市场细分
- 图像分割（基于像素特征）
- 文档聚类（基于文本向量）
- 低维数据的快速可视化与预处理
核心思路
1. 初始化：在数据空间中随机选取 $K$ 个点作为初始簇心（centroid），或使用 k-means++ 改进；
2. 迭代优化：
  - 分配（Assignment）：将每个样本指派给最近的簇心；
  - 更新（Update）：根据新的簇内样本重新计算簇心；
3. 收敛判定：当簇心位置不再发生显著变化，或达到最大迭代次数时停止。

2. 公式及原理

2.1 目标函数
K-means 旨在最小化簇内平方误差之和（Within-Cluster Sum of Squares, WCSS）：

$\sum_{j=1}^K \sum_{\mathbf{x}_i \in C_j} \bigl\|\mathbf{x}_i - \boldsymbol{\mu}_j\bigr\|^2,$

http://www.dtcms.com/a/197854.html

相关文章：

[创业之路-361]：企业战略管理案例分析-2-战略制定-使命、愿景、价值观的失败案例

第12章 Java多线程机制

什么是迁移学习（Transfer Learning）？

图绘Linux：基础指令脉络阁

高效查询：位图、B+树

iOS 工厂模式

【AGI】模型性能评估框架EvalScope

C++函数基础：定义与调用函数，参数传递（值传递、引用传递）详解

ubuntu 安装mq

碎片笔记｜PromptStealer复现要点（附Docker简单实用教程）

web系统安全管理

Java核心API实战：从字符串到多线程全解析

企业级小程序APP用户数据查询系统安全脆弱性分析及纵深防御体系构建

禾本科植物胚乳的发育

定时器相关概念

CSS 浮动（Float）及其应用

2025年、2024年最新版IntelliJ IDEA下载安装过程（含Java环境搭建+Maven下载及配置）

Java求职面试揭秘：从Spring到微服务的技术挑战

知识图谱（KG）与大语言模型（LLM）

前端获取用户的公网 IP 地址

btc交易所关键需求区 XBIT反弹与上涨潜力分析

|从零开始的Pyside2界面编程| 环境搭建以及第一个ui界面

6.2.5图的基本操作

深入解析Spring Boot与Kafka集成：构建高性能消息驱动应用

二分算法的介绍简单易懂

玄机-第一章应急响应-Linux日志分析

Visual Studio已更新为17.14+集成deepseek实现高效编程

vim - v

互联网大厂Java求职面试：AI与大模型应用集成及云原生挑战

贪心、分治和回溯算法