机器学习之三大学习范式:监督学习、无监督学习、强化学习
昨天,DeepSeek正式发布 DeepSeek-V3.2-Exp 模型,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。简单来讲,就是所需求GPU资源变少,API降价了。
AI的飞速发展给我们带来了各种便利,作为程序员,我们也来了解一下AI是如何学会人类知识的,今天主要给大家分享一下机器学习之三大学习范式:监督学习、无监督学习、强化学习。
机器学习三大范式:用“教孩子”来通俗理解
我想可以想像,机器学习就是让计算机“学习”如何完成一项任务,为了便于大家理解,我们用“教孩子”作比喻。
学习方式 | 核心比喻 | 关键词 | 典型任务 |
---|---|---|---|
监督学习 | 有标准答案的辅导班 | 标注、答案、预测 | 分类(猫狗识别)、回归(预测房价) |
无监督学习 | 自己归纳总结的探索课 | 模式、结构、分组 | 聚类(客户分群)、降维(数据可视化) |
强化学习 | 在游戏中摸索的试错法 | 试错、奖励、策略 | 围棋AI、机器人控制、自动驾驶 |
1. 监督学习:就像“有标准答案的辅导班”
核心思想: 我给你大量的“练习题”(数据)和每道题的“标准答案”(标签),你通过学习找出“题目”和“答案”之间的关系。以后我给你一道新题,你就能给出答案。
-
通俗比喻:
你想教一个孩子识别动物。- 准备学习材料:你给他看无数张图片,并且每张图片都标注好了这是什么动物:“这是猫”、“这是狗”、“这是兔子”。
- 学习过程:孩子通过观察这些带标签的图片,自己总结规律:哦,有胡须、尖耳朵、尾巴长的是猫;吐舌头、体型较大的是狗。
- 应用/预测:现在你给他看一张全新的动物图片(比如一只猫),他就能根据之前学到的规律,预测出:“这是猫!”
-
机器学习中的例子:
- 垃圾邮件过滤:系统用很多已经标记为“垃圾邮件”和“正常邮件”的邮件进行训练,学会区分特征,然后自动判断新邮件是否是垃圾邮件。
- 房价预测:提供房屋的“面积”、“地段”、“卧室数量”(特征)和对应的“真实售价”(标签),让模型学习关系,从而预测新房子的价格。
-
关键点:学习数据是带有标签的。
2. 无监督学习:就像“自己归纳总结的探索课”
核心思想: 我不给你标准答案,只给你一大堆原始材料(数据),让你自己观察,自己去发现这些材料中隐藏的内在结构或相似性。
-
通俗比喻:
你给孩子一筐混合的、没有标签的积木(三角形、正方形、圆形等)。- 准备学习材料:只是一筐混在一起的积木,没有任何说明。
- 学习过程:孩子不会知道这些积木叫什么名字,但他会自己动手,把形状相似的堆在一起:所有三角形的放一堆,所有正方形的放一堆,所有圆形的放一堆。他自己发现了数据中的模式。
- 应用/发现:这个过程帮助他理解了这筐积木可以按形状分为3类。
-
机器学习中的例子:
- 客户分群:电商平台分析用户的购买行为,自动将用户分成“高价值客户”、“价格敏感型客户”、“新客户”等不同群体,以便进行精准营销。注意:算法自己完成分群,但我们事后需要去解读每个群体代表什么。
- 新闻主题聚类:系统自动将海量的新闻文章按照内容相似度进行分类,把讲体育的归为一类,讲财经的归为一类。
-
关键点:学习数据是没有标签的,目标是发现隐藏结构。
3. 强化学习:就像“在游戏中摸索的试错法”
核心思想: 让一个“智能体”在一个“环境”里行动。它做对了就给它“奖励”,做错了就给它“惩罚”或没有奖励。通过不断试错,它自己学会一套能获得最大奖励的“策略”。
-
通俗比喻:教孩子玩一个简单的迷宫游戏。
- 设定环境与目标:孩子是“智能体”,迷宫是“环境”,走出迷宫是“最终目标”。
- 试错过程:
- 孩子向左走,撞墙了 -> 惩罚(比如游戏分数-1)。
- 孩子向右走,道路通畅 -> 小额奖励(分数+1)。
- 孩子最终成功走出迷宫 -> 巨大奖励(分数+100)!
- 学习策略:孩子不需要你告诉他迷宫地图,他通过成千上万次的尝试,自己摸索出一条能获得最高总分的路径(即最佳策略)。
-
机器学习中的例子:
- AlphaGo下围棋:智能体(AlphaGo)与环境(棋盘)互动。每走一步棋,它都在评估局势。最终赢了(巨大奖励),它就“知道”之前的一系列走法是好的。
- 机器人行走:智能体(机器人)尝试移动双腿。摔倒则惩罚,成功前进则奖励。最终学会平稳行走的策略。
- 自动驾驶:智能体(自动驾驶系统)在模拟环境中驾驶。安全行驶奖励,撞车惩罚。从而学会驾驶策略。
-
关键点:通过与环境的交互和延迟奖励来学习最佳行为策略。
总结对比
方面 | 监督学习 | 无监督学习 | 强化学习 |
---|---|---|---|
学习数据 | 带标签的数据集 | 无标签的数据集 | 无需初始数据,通过与环境交互产生数据 |
学习目标 | 学习“输入”到“输出”的映射关系,进行预测 | 发现数据内部的潜在结构(分组、降维等) | 学习一套能获得长期最大回报的行动策略 |
过程 | 被动学习(从已标注的数据中学习) | 主动探索(从无标注的数据中发现) | 主动试错(在环境中尝试、获得反馈、调整) |
反馈 | 直接、即时的(每个数据点都有正确答案) | 无明确反馈 | 延迟的、基于奖励/惩罚的信号 |
希望这个比喻能帮助你清晰地理解这三者之间的根本区别!欢迎大家一起讨论。