当前位置: 首页 > news >正文

Sklearn 机器学习 数据聚类 层次聚类的两个重要属性

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖

在这里插入图片描述

本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】


在这里插入图片描述

Sklearn 机器学习:数据聚类中层次聚类的两个重要属性详解

层次聚类(Hierarchical Clustering)是一种逐层构建树状聚类结构的无监督学习方法,常见于图像分析、市场细分、基因数据处理等场景。相比 KMeans 这类需要预设簇数量的方法,层次聚类能更自然地反映数据间的嵌套与层次关系。

本文将详解 Sklearn 中 Agglomerative Clustering(凝聚式层次聚类) 的两个核心控制属性:

  • n_clusters
  • distance_threshold

它们不可同时设定,但各有适用场景。


🔍 一、n_clusters:指定聚类个数

含义

n_clusters 表示我们希望最终将数据聚为多少个簇(cluster),是控制聚类粒度的核心参数

from sklearn.cluster import AgglomerativeClusteringmodel = AgglomerativeClustering(n_clusters=3)

这段代码的含义是:算法从每个样本单独作为一个簇开始,每次合并两个最近的簇,直到只剩下 3 个簇为止。

📌 术语补充说明
此过程可理解为:在构建的层次聚类树中,从下往上数,保留到聚为 n_clusters 个簇的那一层,停止后续合并过程,从而实现“截断”树结构。

使用场景

  • 已知聚类目标数量(如 3 类客户、4 个品类)
  • 聚类结果需匹配已有标签或业务分组

🧩 二、distance_threshold:指定距离阈值

含义

distance_threshold 用于控制聚类停止的条件,定义了两个簇之间的最小“距离界限”。

model = AgglomerativeClustering(distance_threshold=5.0, n_clusters=None)

该参数表示:算法每次合并距离最近的两个簇,直到所有簇之间的最小距离超过该阈值,聚

http://www.dtcms.com/a/316963.html

相关文章:

  • c# 在 23:00 - 23:59 之间执行一次的写法
  • 【重要区分】2类模型的时间平均车速与区间平均车速
  • ApacheCon Asia 2025 中国开源年度报告:Apache Doris 国内第一
  • STM32设置GPIO模式
  • P1103《书本整理》精讲
  • CubeMX安装芯片包
  • Go语言 反射
  • golang的切片
  • Vue.js之核心语法与指令
  • 每日五个pyecharts可视化图表-bars(4)
  • mac colima解决容器化部署权限问题 :Permission denied
  • 三款好用的PDF阅读器
  • PLC学习之路-基础知识-(一)
  • 无刷电机控制 - STM32F405+CubeMX+HAL库+SimpleFOC05,完成霍尔传感器的校准
  • leetcode-python-删除链表的倒数第 N 个结点
  • 初始化列表,变量存储区域和友元变量
  • AcWing 3690:求交点 ← 复旦大学考研机试题 + 克莱姆法则
  • zyh贪心类题目补题报告
  • Spring配置JDBC,使用JdbcTemplate套件和Druid套件
  • IDEA JAVA工程入门
  • CVPR优秀论文 | DashGaussian:在200秒内优化三维高斯点绘制
  • Redis Windows迁移方案与测试
  • 嵌入式学习 双向链表 循坏链表 内核链表
  • Reading Books(Sorting and Searching)
  • Redis备份方案:持久化与外部工具全解析
  • G1系统概括
  • 电脑搜索不到公司无线网络
  • 【C# Winform】 Action事件驱动的多层数据传递
  • 【运维部署篇】OpenShift:企业级容器应用平台全面解析
  • 跑yolov5的train.py时,ImportError: Failed to initialize: Bad git executable.