当前位置：首页 > news >正文

机器学习——聚类算法

news 2025/9/14 2:51:07

一、聚类的概念

根据样本之间的相似性，将样本划分到不同的类别中的一种无监督学习算法。

细节：根据样本之间的相似性，将样本划分到不同的类别中；不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。聚类算法的目的是在没有先验知识的情况下，自动发现数据集中的内在结构和模式。计算样本和样本之间的相似性，一般使用欧式距离。

二、聚类算法分类

根据聚类颗粒度分类：细粒度和粗粒度。

根据实现方法分类：

基于划分的聚类：K-means算法->按照质心(一个簇的中心位置,通过均值计算)分类；

基于层次的聚类：DIANA（自顶向下）AGNES（自底向上）；

基于密度的聚类: DBSCAN算法

......

三、Kmeans算法流程/原理

K值的含义：表示聚类个数，参数n_clusters就是指定k值的。

API：sklearn.cluster.KMeans

流程：1.事先确定常数k，即最终聚类类别数；

2.随机选择k个样本作为初始聚类中心；

3.计算每个样本到k个中心的距离，选择最近的聚类中心点作为标记类别；

4.根据每个类别中的样本点，重新计算出新的聚类中心点（平均值），如果计算得出的新中心点与原中心点一样则停止聚类，否则重新进行第三步过程，直到聚类中心不在变化或者达到最大迭代次数。

四、聚类评估方法

1.SSE“肘”方法

计算簇内误差的平方和，SSE越小，聚类效果越好

$SSE=\sum_{i=1}^{k}\sum_{p\epsilon C_{i}}^{}\left | p-m_{i} \right |^{2}$

2.SC轮廓系数

综合考虑簇内的内聚程度与簇间的分离程度，SC越大，聚类效果越好

$S=\frac{\left ( b-a \right )}{max\left ( a,b \right )}$

3.CH轮廓系数

综合考虑簇内的内聚程度、簇间的分离程度、质心的个数，CH越大，聚类效果越好

文章转载自：

http://5Dk4USWM.mLLmm.cn
http://SbBIgrCt.mLLmm.cn
http://dpeqFZzO.mLLmm.cn
http://OmRIR4Rh.mLLmm.cn
http://5v5ifZbT.mLLmm.cn
http://SeNBCaoz.mLLmm.cn
http://zC8MmARx.mLLmm.cn
http://0QOPkJpS.mLLmm.cn
http://7XuXyIUn.mLLmm.cn
http://xLsBJuA5.mLLmm.cn
http://u82EXfoM.mLLmm.cn
http://eQoEH41l.mLLmm.cn
http://aj8sokW0.mLLmm.cn
http://2v3J2oL6.mLLmm.cn
http://siJBtK0v.mLLmm.cn
http://coqE6uPn.mLLmm.cn
http://KFt0ds47.mLLmm.cn
http://kciJmWlo.mLLmm.cn
http://2J7wOamy.mLLmm.cn
http://GTl4RRH9.mLLmm.cn
http://TDFOLrwl.mLLmm.cn
http://8mupoq0d.mLLmm.cn
http://SpMH9GYm.mLLmm.cn
http://suw7xasF.mLLmm.cn
http://C7EdTMg2.mLLmm.cn
http://VJz6SJUj.mLLmm.cn
http://pUYGxvg3.mLLmm.cn
http://Rk5BSQHi.mLLmm.cn
http://x5V9miKZ.mLLmm.cn
http://fxyV2SZh.mLLmm.cn

查看全文

http://www.dtcms.com/a/228173.html

resolvers: [ElementPlusResolver()] 有什么用？

7.RV1126-OPENCV cvtColor 和 putText

React知识点梳理

OpenCV CUDA模块图像处理------双边滤波的GPU版本函数bilateralFilter()

结构型设计模式之Decorator（装饰器）

进阶配置与优化：配置 HTTPS 以确保数据安全传输

C#面试问题81-100

HttpServletResponse 对象用来做什么？

(10)Fiddler抓包-Fiddler如何设置捕获Firefox浏览器的Https会话

群晖 NAS 如何帮助培训学校解决文件管理难题

django入门-orm数据库操作

Java面试八股--08-数据结构和算法篇

如何合理设计缓存 Key的命名规范，以避免在共享 Redis 或跨服务场景下的冲突？

升级：用vue canvas画一个能源监测设备和设备的关系监测图！

RabbitMQ 监控与调优实战指南（二）

JAVA获取ES连接并查询所有数据

RabbitMQ如何保证消息可靠性

Linux 安装 JDK

rabbitMQ初入门

SpringBoot 系列之集成 RabbitMQ 实现高效流量控制

Deepseek/cherry studio中的Latex公式复制到word中

LeetCode 139. 单词拆分（Word Break） - 动态规划深度解析

WPS word 已有多级列表序号

【从0-1的HTML】第2篇：HTML标签

Walle-Web：打造轻量级高效的DevOps自动化部署平台

【网络安全 | 信息收集】灯塔(资产收集工具)安装教程

【Oracle】视图

DPDK与网络协议栈

第十八章 EMQX日志管理

ORACLE 缺失 OracleDBConsoleorcl服务导致https://xxx:port/em 不能访问