当前位置：首页 > news >正文

Sklearn 机器学习数据聚类层次聚类的两个重要属性

news 2025/11/2 0:00:34

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖

在这里插入图片描述

本博客的精华专栏：
【自动化测试】【测试经验】【人工智能】【Python】

在这里插入图片描述

Sklearn 机器学习：数据聚类中层次聚类的两个重要属性详解

层次聚类（Hierarchical Clustering）是一种逐层构建树状聚类结构的无监督学习方法，常见于图像分析、市场细分、基因数据处理等场景。相比 KMeans 这类需要预设簇数量的方法，层次聚类能更自然地反映数据间的嵌套与层次关系。

本文将详解 Sklearn 中 Agglomerative Clustering（凝聚式层次聚类） 的两个核心控制属性：

n_clusters
distance_threshold

它们不可同时设定，但各有适用场景。

🔍 一、n_clusters：指定聚类个数

含义

n_clusters 表示我们希望最终将数据聚为多少个簇（cluster），是控制聚类粒度的核心参数。

from sklearn.cluster import AgglomerativeClusteringmodel = AgglomerativeClustering(n_clusters=3)

这段代码的含义是：算法从每个样本单独作为一个簇开始，每次合并两个最近的簇，直到只剩下 3 个簇为止。

📌 术语补充说明
此过程可理解为：在构建的层次聚类树中，从下往上数，保留到聚为 n_clusters 个簇的那一层，停止后续合并过程，从而实现“截断”树结构。

使用场景

已知聚类目标数量（如 3 类客户、4 个品类）
聚类结果需匹配已有标签或业务分组

🧩 二、distance_threshold：指定距离阈值

含义

distance_threshold 用于控制聚类停止的条件，定义了两个簇之间的最小“距离界限”。

model = AgglomerativeClustering(distance_threshold=5.0, n_clusters=None)

该参数表示：算法每次合并距离最近的两个簇，直到所有簇之间的最小距离超过该阈值，聚

查看全文

http://www.dtcms.com/a/316963.html

c# 在 23:00 - 23:59 之间执行一次的写法

【重要区分】2类模型的时间平均车速与区间平均车速

ApacheCon Asia 2025 中国开源年度报告：Apache Doris 国内第一

STM32设置GPIO模式

P1103《书本整理》精讲

CubeMX安装芯片包

Go语言反射

golang的切片

Vue.js之核心语法与指令

每日五个pyecharts可视化图表-bars（4）

mac colima解决容器化部署权限问题：Permission denied

三款好用的PDF阅读器

PLC学习之路-基础知识-(一）

无刷电机控制 - STM32F405+CubeMX+HAL库+SimpleFOC05，完成霍尔传感器的校准

leetcode-python-删除链表的倒数第 N 个结点

初始化列表，变量存储区域和友元变量

AcWing 3690：求交点 ← 复旦大学考研机试题 + 克莱姆法则

zyh贪心类题目补题报告

Spring配置JDBC，使用JdbcTemplate套件和Druid套件

IDEA JAVA工程入门

CVPR优秀论文 | DashGaussian：在200秒内优化三维高斯点绘制

Redis Windows迁移方案与测试

嵌入式学习双向链表循坏链表内核链表

Reading Books(Sorting and Searching)

Redis备份方案：持久化与外部工具全解析

G1系统概括

电脑搜索不到公司无线网络

【C# Winform】 Action事件驱动的多层数据传递

【运维部署篇】OpenShift：企业级容器应用平台全面解析

跑yolov5的train.py时，ImportError: Failed to initialize: Bad git executable.

Sklearn 机器学习：数据聚类中层次聚类的两个重要属性详解

🔍 一、n_clusters：指定聚类个数

含义

使用场景

🧩 二、distance_threshold：指定距离阈值

含义

相关文章：