当前位置: 首页 > news >正文

机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律

机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律

资料取自《零基础学机器学习》。
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


一、核心比喻:乐高积木的自由王国 🧩

生活场景1
假设你有一箱混装的乐高积木:

  • 没有说明书(无标签)
  • 包含圆形/方形/星形(不同形状)
  • 红/蓝/黄(不同颜色)

无监督学习就像

杂乱积木箱
按形状分筐
按颜色分堆
发现‘蓝星形+黄圆形’常同时出现

二、超市购物案例实战 🛒(教材第四章经典案例2

问题:分析顾客购物数据发现潜在规律

原始交易记录
牛奶|面包|啤酒|尿布|鸡蛋
数据挖掘模型
聚类结果:
家庭主妇组→常买牛奶面包
年轻爸爸组→啤酒尿布组合
关联规则:
买薯片的顾客65%会买可乐

实际应用

  • 沃尔玛通过无监督学习发现「啤酒+尿布」关联销售,调整货架位置使销量提升30%
  • 音乐APP根据播放记录自动创建「深夜钢琴曲」「晨跑摇滚」歌单

三、三大核心技术拆解 🔧

  1. 聚类分析(Clustering)
    把相似数据分到同组(如同类积木分组)

    # 典型代码逻辑
    from sklearn.cluster import KMeans
    model = KMeans(n_clusters=3)  # 假设分3类
    model.fit(顾客数据)  # 自动找到分群规律
    
  2. 降维(Dimensional Reduction)
    把100个特征压缩成2个核心特征(如从积木10个属性提取「体积+颜色强度」)

  3. 关联规则(Association Rules)
    发现「如果买A则可能买B」的关系(如同发现圆形积木常搭配蓝色)


四、与监督学习的本质区别 🤼

通过对比表格理解特点(教材第四章对比分析3):

维度监督学习无监督学习
数据要求需要标记数据纯原始数据
任务目标预测已知结果发现未知模式
典型应用房价预测/疾病诊断客户分群/异常检测
结果验证有明确准确率指标依赖业务解读

五、应用场景全景图 🌐

35% 25% 20% 15% 5% 无监督学习应用领域 市场细分 社交网络分析 基因序列研究 图像压缩 其他

典型案例

  • 银行通过交易模式识别信用卡盗刷(异常值检测)
  • 生物学家通过基因表达数据自动分类细胞类型
  • 新闻网站自动聚合相关报道(如冬奥会专题)

六、技术局限性须知 🚨(教材第四章注意事项4

  1. 解释性差:就像不知道积木为何这样分组,可能难以说明分群逻辑
  2. 质量依赖:如果积木混入橡皮擦,可能产生错误关联
  3. 评估困难:无法像考试打分那样量化效果,需人工确认价值

七、终极核心总结 💡

无监督学习是让机器在未被告知答案的情况下,像孩子观察世界一样自主发现数据中隐藏的秩序与规律(教材第四章核心结论1
(典型案例:AlphaFold通过分析蛋白质结构数据自主发现折叠规律🔬)

目录:总目录
上篇文章:机器学习第三讲:监督学习 → 带答案的学习册,如预测房价时需要历史价格数据
下篇文章:机器学习第五讲:强化学习 → 电子宠物狗试错学习,做对给虚拟奖励



  1. 《零基础学机器学习》第四章第一节"无监督本质",P.152 ↩︎ ↩︎

  2. 《零基础学机器学习》第四章案例4-3"零售业模式发现",P.168-171 ↩︎

  3. 《零基础学机器学习》第四章对比表格4.2,P.159 ↩︎

  4. 《零基础学机器学习》第四章第六节"局限与挑战",P.189 ↩︎

相关文章:

  • redis sentinel和redis cluster的主从切换选举过程
  • 77.评论日记
  • Unity基础学习(十)Camera组件
  • 【Vue】vuex的getters mapState mapGetters mapMutations mapActions的使用
  • milvus+flask山寨复刻《从零构建向量数据库》第7章
  • 常见的降维算法
  • 右值引用的剖析
  • OpenCv实战笔记(4)基于opencv实现ORB特征匹配检测
  • SpringCloud之Ribbon基础认识-服务负载均衡
  • MySQL索引与事务
  • 游戏引擎学习第268天:合并调试链表与分组
  • windows 环境下 python环境安装与配置
  • KEIL_C51和KEIL_MDK共存
  • AI大模型学习十七、利用Dify搭建 AI 图片生成应用
  • average per-pixel disparity error: EPE及不同距离值下的误差曲线
  • Python函数式编程入门:闭包与装饰器详解
  • 开疆智能Canopen转Profinet网关连接工博士GBS20机器人配置案例
  • 栈应用:辅助站(c++)
  • 使用 CST 软件增强工业设备的电磁兼容性设计:原理、方法和应用
  • SpringBoot框架开发网络安全科普系统开发实现
  • 刘元春在《光明日报》撰文:以法治护航民营经济高质量发展
  • 重庆荣昌区委区政府再设“答谢宴”,邀请800余名志愿者机关食堂用餐
  • 智利观众也喜欢上海的《好东西》
  • 河南省平顶山市副市长许红兵主动投案,接受审查调查
  • 保证断电、碰撞等事故中车门系统能够开启!隐藏式门把手将迎来强制性国家标准
  • 警惕“全网最低价”等宣传,市监总局和中消协发布直播消费提示