当前位置: 首页 > news >正文

Choosing the Number of Clusters|选择聚类的个数

-----------------------------------------------------------------------------------------------

这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!

-----------------------------------------------------------------------------------------------

一、合适的聚类粒度

BFD63D8A-261B-47C6-8D66-8EA9B6036CF2.png

图中黑点为数据样本。每一侧的蓝色大椭圆把样本划成两类(K=2,按“左右/宏观簇”分组);而蓝色椭圆内部又各有两个红色小圆,把样本进一步细分为四类(K=4,按“子簇/细粒度”分组)。同一数据既可视作两个大的聚类,也可视作四个更紧密的子聚类,直观展示了“正确的 K 取决于你想识别的粒度”。


二、肘部法确定 K

F95B569E-0B17-479B-AC35-B70FA06F9AB3.png

图示主题是“Choosing the value of K(选择 K 的取值)— Elbow method(肘部法)”。

左图:纵轴为代价函数 J,横轴为簇数 K。曲线在 K=1→3 之间快速下降,到了 K≈3 处出现明显“拐点”(图中用手臂与“elbow”标注),之后增加簇数收益变小、曲线趋缓,因此图上给出结论 k=3。

右图:同样坐标设置,但曲线从 K=1 到更大的 K 基本平滑下降,没有明显“拐点”,表示用肘部法难以从这条曲线中确定一个清晰的 K 值。


三、按需求选择 K

7B4E0503-3EDD-4C66-969B-E3FDBB6E0DD4.png

图示主题是“Choosing the value of K”,强调按下游用途选择簇数。

上方文字:有时运行 K-means 是为后续任务提供分组,应根据该后续任务的指标评估 K 值。

两幅示例(横轴 Height,纵轴 Weight,黑点为样本,蓝色椭圆为簇):

  • 左图“T-shirt sizing”:将人群按身高与体重聚为 3 类并对应 S、M、L,标注 K=3。

  • 右图“T-shirt sizing”:同一数据更细分为 5 类并对应 XS、S、M、L、XL,标注 K=5。

含义:同一数据可因目标不同采用不同的 K,从而得到粗或细的尺码分组。


四、总结

在 K-means 聚类中,选择合适的聚类个数 KK 是一个核心问题。不同的 K 值往往对应不同层次的划分,没有唯一的“正确答案”。常见的思路包括:

  1. 聚类粒度:根据需要,可以把数据分为较少的大簇,也可以细分为更多的小簇,这取决于研究者希望看到的粒度。

  2. 评估方法:利用如肘部法等技术手段,寻找代价函数下降明显放缓的位置,以此作为较合理的聚类数。

  3. 任务导向:有时聚类的最终目的是为下游应用服务,此时 K 的选择应围绕实际需求来决定,例如分组标准是粗略还是精细。

综上,聚类个数的选择不是一个纯粹的数学问题,而是 方法评估与应用需求结合的结果。既要考虑统计意义上的合理性,也要兼顾任务目标的适配性,最终找到最有价值的 K。

-----------------------------------------------------------------------------------------------

这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!

-----------------------------------------------------------------------------------------------

http://www.dtcms.com/a/406477.html

相关文章:

  • golang基础语法(五)切片
  • Golang学习笔记:标准库sync包
  • 【Git】Git 简介及基本操作
  • 网站模版怎么做wordpress 图片 二级域名
  • 点击EDGE浏览器下载的PDF文件总在EDGE中打开
  • 用MATLAB画一只可爱的小熊
  • Matlab通过GUI实现点云的半径滤波(Radius Outlier Removal)
  • 基于MATLAB的8QAM调制解调仿真与BER性能分析
  • 2025年AI证书报考指南:CAIP/华为/谷歌认证
  • 合肥营销型网站建设开发河南城源建设工程有限公司网站
  • 若依 springboot websocket
  • 开源 C# 快速开发(三)复杂控件
  • Visual Studio使用C++配置OpenCV环境,同时添加模板以4.12为例
  • JUnit 4 + Spring Boot 测试依赖
  • HTML应用指南:利用POST请求获取全国索尼体验型零售店位置信息
  • html网站源码 html网页模板下载
  • 做网站接广告了解基本的php wordpress
  • 房地产手机网站模板网站推广公司ihanshi
  • 推荐一个网站
  • 前端可视化第一章:PixiJS入门指南
  • 时间序列分析新视角:单变量预训练 多变量微调
  • coqui-ai/TTS 安装
  • linux命令dd单刷镜像文件
  • 奔驰押注中国AI,国产大模型上车
  • 笔记(C++篇)—— Day 11
  • Cursor推出全新文档中心:甚至提供详细的中文版本
  • 选择合肥网站建设html的基本结构
  • Linux文件系统调用详解:底层操作到高级应用
  • 基于51单片机的供电保护系统
  • 网站建设技术交流制作公司网页价钱