当前位置: 首页 > news >正文

python学习打卡:DAY 18 推断聚类后簇的类型

@浙大疏锦行

聚类后的分析:推断簇的类型

知识点回顾:

  1. 推断簇含义的2个思路:先选特征和后选特征
  2. 通过可视化图形借助ai定义簇的含义
  3. 科研逻辑闭环:通过精度判断特征工程价值

作业:参考示例代码对心脏病数据集采取类似操作,并且评估特征工程后模型效果有无提升。

在聚类分析中,推断簇的类型是理解数据内在结构和业务意义的关键步骤。以下是系统化的推断方法及常见簇类型的总结:

一、簇的基本类型
​​明显分离的簇​​

​​特征​​:不同簇中任意两点之间的距离 > 簇内任意两点间距离。
​​适用场景​​:数据自然分组清晰,如生物学中的物种分类。
​​示例​​:球形或任意形状的分离簇(图10-2a)。
​​基于原型的簇(中心型簇)​​

​​特征​​:簇内对象到质心(均值)的距离 < 到其他簇质心的距离。
​​典型算法​​:K-Means、层次聚类。
​​局限性​​:倾向于生成球形簇,对不规则形状效果差。
​​基于密度的簇​​

​​特征​​:通过高密度区域识别,可处理噪声和离群点。
​​典型算法​​:DBSCAN。
​​优势​​:适用于缠绕或不规则形状(如哑铃状簇)。
​​基于连片的簇​​

​​特征​​:相邻对象距离在阈值内即归为同簇,依赖连通性。
​​适用场景​​:图结构数据(如社交网络)。
二、推断簇含义的方法
​​先选特征法​​

​​步骤​​:聚类前选择与业务强相关的特征(如消费记录)。
​​优点​​:结果可直接解释,避免无关特征干扰。
​​案例​​:分析用户购买习惯时,仅用“消费频率”“金额”等特征聚类。
​​后选特征法​​

​​步骤​​:
用全部特征聚类,生成簇标签;
将簇标签作为目标变量,构建分类模型(如随机森林);
通过SHAP值、特征重要性筛选关键特征解释簇
​​可视化辅助分析​​

降维(如PCA)后绘制散点图,观察簇分布;
结合业务知识标注簇类型(如“高风险心脏病患者簇”)。
三、实际应用注意事项
​​评估簇的合理性​​

检查每个簇的样本量(避免过小无意义);
结合轮廓系数、CH指数等指标优化聚类参数。
​​业务逻辑闭环​​

将聚类结果作为新特征加入监督模型(如分类预测);
通过精度提升验证特征工程价值(如心脏病数据集预测)。
​​避免常见误区​​

非球状簇勿强制用K-Means(可选DBSCAN);
高维数据需先降维再解释,避免“维度灾难”。
总结
推断簇类型需结合​​数据特性​​(形状、密度)与​​业务目标​​。优先尝试“后选特征法”+可视化全面探索,再通过“先选特征法”聚焦业务解释。最终需以监督模型验证聚类的实际价值(如预测效果提升)。若效果未达预期,可尝试过采样(SMOTE)或调整聚类算法进一步优化。

http://www.dtcms.com/a/266817.html

相关文章:

  • 在 Vue 3 中全局使用 Suspense 组件
  • 【内存】Linux 内核优化实战 - kernel.numa_balancing
  • [Linux]内核态与用户态详解
  • 1.1_3_2 三种交换方式的性能分析
  • PHP从字符串到数值的类型转换
  • 后端密码加密:守护用户数据的钢铁长城
  • 第三章 基于rtthread标准库的串口和shell应用
  • vue 循环无限滚动表格
  • 用distance_transform 检测线性凸包
  • Java项目:基于SSM框架实现的忘忧小区物业管理系统【ssm+B/S架构+源码+数据库+毕业论文+开题报告】
  • 双因子认证(2FA)是什么?从零设计一个安全的双因子登录接口
  • Linux-进程概念(3)
  • 在HP暗影精灵Ubuntu20.04上修复IntelAX211Wi-Fi不可用的全过程记录——系统安装以后没有WIFI图标无法使用无线网
  • RabbitMQ 高级特性之 TTL
  • Spring Boot 应用启动时,端口 8080 已被其他进程占用,怎么办
  • 物联网中的Unity/Unreal引擎集成:数字孪生与可视化控制
  • 【Spring Boot】HikariCP 与 Druid 连接池全面对比
  • OpenCV中超分辨率(Super Resolution)模块类cv::dnn_superres::DnnSuperResImpl
  • 数字工厂的核心引擎:物联网驱动生产智能化升级
  • 前端查询条件加密传输方案(SM2加解密)
  • Flink SQLServer CDC 环境配置与验证
  • vue3 el-table 行筛选 设置为单选
  • Oreacle(SQL语言基础)
  • 【问题解决】VSCode终端中看不到Git-Bash
  • XILINX Kintex 7系列FPGA的全局时钟缓冲器(BUFG)和区域时钟缓冲器(BUFR/BUFH)的区别
  • 【PyTorch】PyTorch预训练模型缓存位置迁移,也可拓展应用于其他文件的迁移
  • HTTP协议利用TCP的特性来实现长连接
  • Compose笔记(三十)--图片选择器
  • 【Spring Boot】HikariCP 连接池 YAML 配置详解
  • 洛谷P1941 [NOIP 2014 提高组] 飞扬的小鸟