当前位置: 首页 > news >正文

【聚类】 K-means

K-means

文章目录

  • K-means
    • 1. 算法介绍
    • 2. 公式及原理
    • 3. 伪代码

1. 算法介绍

  • 背景与目标
    K-means 是最经典、最常用的原型聚类(prototype-based clustering)算法之一,由 Stuart Lloyd 于1957年提出,1982年被广泛推广。其核心目标是:

    将给定的 n n n 个数据点划分为 K K K 个簇,使得簇内样本的相似度(通常用欧氏距离)最大化、簇间差异最大化。

  • 应用场景

    • 客户分群、市场细分
    • 图像分割(基于像素特征)
    • 文档聚类(基于文本向量)
    • 低维数据的快速可视化与预处理
  • 核心思路

    1. 初始化:在数据空间中随机选取 K K K 个点作为初始簇心(centroid),或使用 k-means++ 改进;

    2. 迭代优化

      • 分配(Assignment):将每个样本指派给最近的簇心;
      • 更新(Update):根据新的簇内样本重新计算簇心;
    3. 收敛判定:当簇心位置不再发生显著变化,或达到最大迭代次数时停止。


2. 公式及原理

2.1 目标函数
K-means 旨在最小化簇内平方误差之和(Within-Cluster Sum of Squares, WCSS):

J = ∑ j = 1 K ∑ x i ∈ C j ∥ x i − μ j ∥ 2 , J = \sum_{j=1}^K \sum_{\mathbf{x}_i \in C_j} \bigl\|\mathbf{x}_i - \boldsymbol{\mu}_j\bigr\|^2, J=j=1KxiCj xi

相关文章:

  • [创业之路-361]:企业战略管理案例分析-2-战略制定-使命、愿景、价值观的失败案例
  • 第12章 Java多线程机制
  • 什么是迁移学习(Transfer Learning)?
  • 图绘Linux:基础指令脉络阁
  • 高效查询:位图、B+树
  • iOS 工厂模式
  • 【AGI】模型性能评估框架EvalScope
  • C++函数基础:定义与调用函数,参数传递(值传递、引用传递)详解
  • ubuntu 安装mq
  • 碎片笔记|PromptStealer复现要点(附Docker简单实用教程)
  • web系统安全管理
  • Java核心API实战:从字符串到多线程全解析
  • 企业级小程序APP用户数据查询系统安全脆弱性分析及纵深防御体系构建
  • 禾本科植物胚乳的发育
  • 定时器相关概念
  • CSS 浮动(Float)及其应用
  • 2025年、2024年最新版IntelliJ IDEA下载安装过程(含Java环境搭建+Maven下载及配置)
  • Java求职面试揭秘:从Spring到微服务的技术挑战
  • 知识图谱(KG)与大语言模型(LLM)
  • 前端获取用户的公网 IP 地址
  • 牛市早报|上市公司重大资产重组新规出炉,4月经济数据将公布
  • “80后”南京大学天文与空间科学学院教授施勇加盟西湖大学
  • 天问二号探测器顺利转入发射区
  • 关税影响下沃尔玛想涨价,特朗普施压:自行承担,别转嫁给顾客
  • 上海交大曾小勤:科技传播不应停留于知识搬运,要做科学思维的播种机
  • 全国林业院校校长论坛举行,聚焦林业教育的创新与突破