机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律
机器学习第四讲:无监督学习 → 给无标签积木自由组合,发现隐藏规律
资料取自《零基础学机器学习》。
查看总目录:学习大纲
关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南
一、核心比喻:乐高积木的自由王国 🧩
生活场景1:
假设你有一箱混装的乐高积木:
- 没有说明书(无标签)
- 包含圆形/方形/星形(不同形状)
- 红/蓝/黄(不同颜色)
无监督学习就像:
二、超市购物案例实战 🛒(教材第四章经典案例2)
问题:分析顾客购物数据发现潜在规律
实际应用:
- 沃尔玛通过无监督学习发现「啤酒+尿布」关联销售,调整货架位置使销量提升30%
- 音乐APP根据播放记录自动创建「深夜钢琴曲」「晨跑摇滚」歌单
三、三大核心技术拆解 🔧
-
聚类分析(Clustering)
把相似数据分到同组(如同类积木分组)# 典型代码逻辑 from sklearn.cluster import KMeans model = KMeans(n_clusters=3) # 假设分3类 model.fit(顾客数据) # 自动找到分群规律
-
降维(Dimensional Reduction)
把100个特征压缩成2个核心特征(如从积木10个属性提取「体积+颜色强度」) -
关联规则(Association Rules)
发现「如果买A则可能买B」的关系(如同发现圆形积木常搭配蓝色)
四、与监督学习的本质区别 🤼
通过对比表格理解特点(教材第四章对比分析3):
维度 | 监督学习 | 无监督学习 |
---|---|---|
数据要求 | 需要标记数据 | 纯原始数据 |
任务目标 | 预测已知结果 | 发现未知模式 |
典型应用 | 房价预测/疾病诊断 | 客户分群/异常检测 |
结果验证 | 有明确准确率指标 | 依赖业务解读 |
五、应用场景全景图 🌐
典型案例:
- 银行通过交易模式识别信用卡盗刷(异常值检测)
- 生物学家通过基因表达数据自动分类细胞类型
- 新闻网站自动聚合相关报道(如冬奥会专题)
六、技术局限性须知 🚨(教材第四章注意事项4)
- 解释性差:就像不知道积木为何这样分组,可能难以说明分群逻辑
- 质量依赖:如果积木混入橡皮擦,可能产生错误关联
- 评估困难:无法像考试打分那样量化效果,需人工确认价值
七、终极核心总结 💡
无监督学习是让机器在未被告知答案的情况下,像孩子观察世界一样自主发现数据中隐藏的秩序与规律(教材第四章核心结论1)
(典型案例:AlphaFold通过分析蛋白质结构数据自主发现折叠规律🔬)
目录:总目录
上篇文章:机器学习第三讲:监督学习 → 带答案的学习册,如预测房价时需要历史价格数据
下篇文章:机器学习第五讲:强化学习 → 电子宠物狗试错学习,做对给虚拟奖励
《零基础学机器学习》第四章第一节"无监督本质",P.152 ↩︎ ↩︎
《零基础学机器学习》第四章案例4-3"零售业模式发现",P.168-171 ↩︎
《零基础学机器学习》第四章对比表格4.2,P.159 ↩︎
《零基础学机器学习》第四章第六节"局限与挑战",P.189 ↩︎