当前位置: 首页 > news >正文

从聚类到集成,两种实用算法框架分享

一、K-means:让数据自己 “找组织”

什么是聚类?

聚类属于无监督学习的范畴 —— 简单说就是手里没有标签时,我们要把长得像的样本分到一组。比如给一堆用户数据,不需要提前知道 “高价值用户”“潜在用户” 这些标签,聚类算法能自动帮我们发现数据中隐藏的分组规律。

怎么衡量 “像不像”?

判断样本是否相似,关键看距离度量方式:

  • 欧式距离:最常用的一种,就像平面上两点间的直线距离,扩展到 n 维空间就是各维度差值的平方和开根号。
  • 曼哈顿距离:更像城市里打车的路线,算的是坐标差值的绝对值之和(比如从 (1,2) 到 (3,5),距离就是 | 1-3|+|2-5|=5)。

K-means 的核心步骤

  1. 先定一个 k 值(想分成几类),随机选 k 个样本当初始 “聚类中心”
  2. 算每个样本到这 k 个中心的距离,把样本分到最近的中心那组
  3. 重新计算每组的均值,作为新的聚类中心
  4. 重复第 2、3 步,直到中心位置不再变化,聚类结果就稳定了

怎么评价聚类效果?

可以看CH 指标:这个值越大,说明组内样本越集中(紧凑),组间差异越明显(分散),聚类效果就越好。

优缺点很鲜明

  • 优点:简单快速,对常规数据集很友好
  • 缺点:k 值得自己定(这点很麻烦),对非凸形状的簇不太敏感,计算量会随样本数线性增长

二、集成学习:三个臭皮匠顶个诸葛亮

核心思想

就像做决策时,多听几个专家的意见往往比单听一个更靠谱。集成学习就是把多个 “弱学习器”(性能一般的模型)组合起来,变成一个 “强学习器”(性能更优的模型)。

常见的三种组合套路

  1. Bagging(并行模式)
    代表是随机森林

    • 随机:既随机采样数据,又随机选特征,让每个决策树都有点 “个性”
    • 森林:多棵决策树并行生长,最后投票(分类)或平均(回归)出结果
      优势是能处理高维数据,还能告诉我们哪些特征更重要,训练速度也快(树可以并行生成)。
  2. Boosting(串行模式)
    典型如 AdaBoost:
    从弱学习器开始,每次都根据上一轮的错误调整样本权重 —— 分错的样本会被 “重点关照”(权重提高),下一个学习器会更关注这些难分的样本。最后按每个学习器的表现给权重,组合成强学习器。

  3. Stacking(堆叠模式)
    更 “暴力” 的组合方式:先让各种模型(KNN、SVM、随机森林等)分别输出结果,再把这些结果当新特征,训练一个 “元模型” 来做最终预测,相当于 “用模型的结果再建模”。

组合策略

  • 简单平均 / 加权平均(回归常用)
  • 投票法(分类常用,少数服从多数)
http://www.dtcms.com/a/342257.html

相关文章:

  • 医疗信息化自主可控转型的实践探索 —— 以常德二院为例
  • 为什么调用API总返回404,该如何调试
  • 35、自主移动机器人 (AMR) 调度模拟 (电子厂) - /物流与仓储组件/amr-scheduling-electronics
  • 机器学习-集成算法
  • HarmonyOS 时钟应用开发详解:从零构建实时时钟组件
  • MS17-010永恒之蓝复现
  • Prometheus+Grafana 监控体系搭建:从入门到告警配置
  • open3d-点云函数:变换:旋转,缩放、平移,齐次变换(R,T)等
  • 从“卡脖子”到“自主可控”!电科金仓+东华医为生态协同,打造医疗新范式
  • postman接口自动化测试
  • NavA3——双VLM架构下的先“推理解析”后“定位导航”:理解任意指令,导航至任意地点,查找任意目标
  • opencv基础学习与实战(3)图像形态学与边缘检测
  • langgraph快速搭建agent后端和react前端
  • TOC语法源码生成脚本:基础易纷呈,进阶心渲染(python)
  • 基于 Flask 与 Milvus 构建高效图片搜索引擎,可通过API接入,支持Docker一键部署
  • java学习 1504 统计全1子矩形 + python生成ppt部分思路
  • 项目从 MySQL 切换 PostgreSQL,踩了太多的坑
  • elementui附件上传自定义文件列表,实现传完即可预览、下载、删除,二次封装el-upload
  • yggjs_react使用教程 v0.1.1
  • yggjs_rlayout 科技风主题后台管理系统实战
  • React:Umi + React + Ant Design Pro的基础上接入Mock数据
  • nuxt3 404页面 如何写
  • 当云手机进入不了游戏怎么办?
  • 1504. 统计全 1 子矩形
  • windows中bat脚本中一些操作(一)
  • 关于 VScode 无法连接 Linux 主机并报错 <未能下载 VScode 服务器> 的解决方案
  • 强化学习算法分类与介绍(含权重更新公式)
  • 从vue2到vue3
  • VASPKIT模版INCAR笔记
  • K8s快速上手-微服务篇篇