当前位置: 首页 > news >正文

kmeans

聚类算法概述


聚类是一种无监督学习**方法,目标是将相似的数据点分到同一组中。
核心问题:没有标签,难以评估和调参。
应用场景:数据分组、模式发现、异常检测等。

距离度量


聚类算法通常基于距离来衡量样本之间的相似性,常用距离包括:

1. 欧式距离


最常用的距离度量方式。
二维公式:  
\( d = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} \)
n维空间公式:  
\( d = \sqrt{\sum_{i=1}^n (x_i - y_i)^2} \)

2. 曼哈顿距离


也称为“城市街区距离”,计算绝对轴距之和。

 二维公式:  
\( d = |x_1 - x_2| + |y_1 - y_2| \)

K-Means 算法


算法流程:


1. 随机选择 K 个点作为初始聚类中心。
2. 将每个样本点分配到最近的聚类中心。
3. 重新计算每个簇的中心(均值)。
4. 重复步骤2和3,直到中心点不再变化或达到最大迭代次数。

评估指标:

CH指标(Calinski-Harabasz Index)
衡量类内紧密度和类间分离度。
CH值越大,表示聚类效果越好(类内紧凑、类间分散)。

优点:


算法简单,实现容易。
处理大规模数据集时效率较高。

缺点:


需要预先指定聚类数 K。
对初始中心点敏感,容易陷入局部最优。
只能发现球状簇,难以处理非凸形状的簇。

http://www.dtcms.com/a/350684.html

相关文章:

  • 【Kotlin】Kotlin 常用注解详解与实战
  • 2025山东国际大健康产业博览会外贸优品中华行活动打造内外贸一体化高效平台
  • 瑞惯科技双轴倾角传感器厂家指南
  • 发射机功能符号错误直方图(Transmitter Functional Symbol Error Histogram)
  • 多级数据结构导出Excel工具类,支持多级数据导入导出,支持自定义字体颜色和背景颜色,支持自定义转化器
  • Java 并发编程总结
  • SCSS上传图片占位区域样式
  • 基于多通道同步分析的智能听诊系统应用程序
  • 动态住宅代理:跨境电商数据抓取的稳定解决方案
  • vue-admin-template vue-cli 4升5(vue2版)
  • C语言中哪些常见的坑
  • Linux的奇妙冒险———进程信号
  • 滲透測試工具
  • Microsoft 365 中的 Rules-Based Classification 功能深度解析:企业数据治理与合规的智能基石
  • 25年8月通信基础知识补充2:星座的峭度(Kurtosis)、ISAC
  • 朴素贝叶斯分类器
  • A股市场高级日历效应详解与实战指南
  • 【P2P】P2P主要技术及RELAY服务1:python实现
  • 【Git】fatal: Unable to create ‘.git/index.lock’: File exists.
  • 迁移面试题
  • 亚远景- 从算法到刹车片:ISO/PAS 8800如何量化自动驾驶的“安全冗余”?
  • Life:Internship in OnSea Day 64
  • PyTorch损失函数全解析与实战指南
  • 高性能C++实践:原子操作与无锁队列实现
  • C++ #pragma
  • C++初阶(3)C++入门基础2
  • 现代C++工具链实战:CMake + Conan + vcpkg依赖管理
  • MYSQL的bin log是什么
  • JUC并发编程08 - 同步模式/异步模式
  • ROS2 python功能包launch,config文件编译后找不到