当前位置：首页 > news >正文

python学习打卡：DAY 18 推断聚类后簇的类型

news 2025/7/5 13:24:32

@浙大疏锦行

聚类后的分析：推断簇的类型

知识点回顾：

推断簇含义的2个思路：先选特征和后选特征
通过可视化图形借助ai定义簇的含义
科研逻辑闭环:通过精度判断特征工程价值

作业：参考示例代码对心脏病数据集采取类似操作，并且评估特征工程后模型效果有无提升。

在聚类分析中，推断簇的类型是理解数据内在结构和业务意义的关键步骤。以下是系统化的推断方法及常见簇类型的总结：

一、簇的基本类型
明显分离的簇

特征：不同簇中任意两点之间的距离 > 簇内任意两点间距离。
适用场景：数据自然分组清晰，如生物学中的物种分类。
示例：球形或任意形状的分离簇（图10-2a）。
基于原型的簇（中心型簇）

特征：簇内对象到质心（均值）的距离 < 到其他簇质心的距离。
典型算法：K-Means、层次聚类。
局限性：倾向于生成球形簇，对不规则形状效果差。
基于密度的簇

特征：通过高密度区域识别，可处理噪声和离群点。
典型算法：DBSCAN。
优势：适用于缠绕或不规则形状（如哑铃状簇）。
基于连片的簇

特征：相邻对象距离在阈值内即归为同簇，依赖连通性。
适用场景：图结构数据（如社交网络）。
二、推断簇含义的方法
先选特征法

步骤：聚类前选择与业务强相关的特征（如消费记录）。
优点：结果可直接解释，避免无关特征干扰。
案例：分析用户购买习惯时，仅用“消费频率”“金额”等特征聚类。
后选特征法

步骤：
用全部特征聚类，生成簇标签；
将簇标签作为目标变量，构建分类模型（如随机森林）；
通过SHAP值、特征重要性筛选关键特征解释簇
可视化辅助分析

降维（如PCA）后绘制散点图，观察簇分布；
结合业务知识标注簇类型（如“高风险心脏病患者簇”）。
三、实际应用注意事项
评估簇的合理性

检查每个簇的样本量（避免过小无意义）；
结合轮廓系数、CH指数等指标优化聚类参数。
业务逻辑闭环

将聚类结果作为新特征加入监督模型（如分类预测）；
通过精度提升验证特征工程价值（如心脏病数据集预测）。
避免常见误区

非球状簇勿强制用K-Means（可选DBSCAN）；
高维数据需先降维再解释，避免“维度灾难”。
总结
推断簇类型需结合数据特性（形状、密度）与业务目标。优先尝试“后选特征法”+可视化全面探索，再通过“先选特征法”聚焦业务解释。最终需以监督模型验证聚类的实际价值（如预测效果提升）。若效果未达预期，可尝试过采样（SMOTE）或调整聚类算法进一步优化。

查看全文

http://www.dtcms.com/a/266817.html