python学习打卡:DAY 18 推断聚类后簇的类型
聚类后的分析:推断簇的类型
知识点回顾:
- 推断簇含义的2个思路:先选特征和后选特征
- 通过可视化图形借助ai定义簇的含义
- 科研逻辑闭环:通过精度判断特征工程价值
作业:参考示例代码对心脏病数据集采取类似操作,并且评估特征工程后模型效果有无提升。
在聚类分析中,推断簇的类型是理解数据内在结构和业务意义的关键步骤。以下是系统化的推断方法及常见簇类型的总结:
一、簇的基本类型
明显分离的簇
特征:不同簇中任意两点之间的距离 > 簇内任意两点间距离。
适用场景:数据自然分组清晰,如生物学中的物种分类。
示例:球形或任意形状的分离簇(图10-2a)。
基于原型的簇(中心型簇)
特征:簇内对象到质心(均值)的距离 < 到其他簇质心的距离。
典型算法:K-Means、层次聚类。
局限性:倾向于生成球形簇,对不规则形状效果差。
基于密度的簇
特征:通过高密度区域识别,可处理噪声和离群点。
典型算法:DBSCAN。
优势:适用于缠绕或不规则形状(如哑铃状簇)。
基于连片的簇
特征:相邻对象距离在阈值内即归为同簇,依赖连通性。
适用场景:图结构数据(如社交网络)。
二、推断簇含义的方法
先选特征法
步骤:聚类前选择与业务强相关的特征(如消费记录)。
优点:结果可直接解释,避免无关特征干扰。
案例:分析用户购买习惯时,仅用“消费频率”“金额”等特征聚类。
后选特征法
步骤:
用全部特征聚类,生成簇标签;
将簇标签作为目标变量,构建分类模型(如随机森林);
通过SHAP值、特征重要性筛选关键特征解释簇
可视化辅助分析
降维(如PCA)后绘制散点图,观察簇分布;
结合业务知识标注簇类型(如“高风险心脏病患者簇”)。
三、实际应用注意事项
评估簇的合理性
检查每个簇的样本量(避免过小无意义);
结合轮廓系数、CH指数等指标优化聚类参数。
业务逻辑闭环
将聚类结果作为新特征加入监督模型(如分类预测);
通过精度提升验证特征工程价值(如心脏病数据集预测)。
避免常见误区
非球状簇勿强制用K-Means(可选DBSCAN);
高维数据需先降维再解释,避免“维度灾难”。
总结
推断簇类型需结合数据特性(形状、密度)与业务目标。优先尝试“后选特征法”+可视化全面探索,再通过“先选特征法”聚焦业务解释。最终需以监督模型验证聚类的实际价值(如预测效果提升)。若效果未达预期,可尝试过采样(SMOTE)或调整聚类算法进一步优化。