当前位置: 首页 > news >正文

机器学习之三大学习范式:监督学习、无监督学习、强化学习

昨天,DeepSeek正式发布 DeepSeek-V3.2-Exp 模型,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。简单来讲,就是所需求GPU资源变少,API降价了。

AI的飞速发展给我们带来了各种便利,作为程序员,我们也来了解一下AI是如何学会人类知识的,今天主要给大家分享一下机器学习之三大学习范式:监督学习、无监督学习、强化学习。


机器学习三大范式:用“教孩子”来通俗理解

我想可以想像,机器学习就是让计算机“学习”如何完成一项任务,为了便于大家理解,我们用“教孩子”作比喻。

学习方式核心比喻关键词典型任务
监督学习有标准答案的辅导班标注、答案、预测分类(猫狗识别)、回归(预测房价)
无监督学习自己归纳总结的探索课模式、结构、分组聚类(客户分群)、降维(数据可视化)
强化学习在游戏中摸索的试错法试错、奖励、策略围棋AI、机器人控制、自动驾驶

1. 监督学习:就像“有标准答案的辅导班”

核心思想: 我给你大量的“练习题”(数据)和每道题的“标准答案”(标签),你通过学习找出“题目”和“答案”之间的关系。以后我给你一道新题,你就能给出答案。

  • 通俗比喻
    你想教一个孩子识别动物。

    1. 准备学习材料:你给他看无数张图片,并且每张图片都标注好了这是什么动物:“这是猫”、“这是狗”、“这是兔子”。
    2. 学习过程:孩子通过观察这些带标签的图片,自己总结规律:哦,有胡须、尖耳朵、尾巴长的是猫;吐舌头、体型较大的是狗。
    3. 应用/预测:现在你给他看一张全新的动物图片(比如一只猫),他就能根据之前学到的规律,预测出:“这是猫!”
  • 机器学习中的例子

    • 垃圾邮件过滤:系统用很多已经标记为“垃圾邮件”和“正常邮件”的邮件进行训练,学会区分特征,然后自动判断新邮件是否是垃圾邮件。
    • 房价预测:提供房屋的“面积”、“地段”、“卧室数量”(特征)和对应的“真实售价”(标签),让模型学习关系,从而预测新房子的价格。
  • 关键点:学习数据是带有标签的。


2. 无监督学习:就像“自己归纳总结的探索课”

核心思想: 我不给你标准答案,只给你一大堆原始材料(数据),让你自己观察,自己去发现这些材料中隐藏的内在结构相似性

  • 通俗比喻
    你给孩子一筐混合的、没有标签的积木(三角形、正方形、圆形等)。

    1. 准备学习材料:只是一筐混在一起的积木,没有任何说明。
    2. 学习过程:孩子不会知道这些积木叫什么名字,但他会自己动手,把形状相似的堆在一起:所有三角形的放一堆,所有正方形的放一堆,所有圆形的放一堆。他自己发现了数据中的模式
    3. 应用/发现:这个过程帮助他理解了这筐积木可以按形状分为3类。
  • 机器学习中的例子

    • 客户分群:电商平台分析用户的购买行为,自动将用户分成“高价值客户”、“价格敏感型客户”、“新客户”等不同群体,以便进行精准营销。注意:算法自己完成分群,但我们事后需要去解读每个群体代表什么。
    • 新闻主题聚类:系统自动将海量的新闻文章按照内容相似度进行分类,把讲体育的归为一类,讲财经的归为一类。
  • 关键点:学习数据是没有标签的,目标是发现隐藏结构


3. 强化学习:就像“在游戏中摸索的试错法”

核心思想: 让一个“智能体”在一个“环境”里行动。它做对了就给它“奖励”,做错了就给它“惩罚”或没有奖励。通过不断试错,它自己学会一套能获得最大奖励的“策略”。

  • 通俗比喻:教孩子玩一个简单的迷宫游戏。

    1. 设定环境与目标:孩子是“智能体”,迷宫是“环境”,走出迷宫是“最终目标”。
    2. 试错过程
      • 孩子向左走,撞墙了 -> 惩罚(比如游戏分数-1)。
      • 孩子向右走,道路通畅 -> 小额奖励(分数+1)。
      • 孩子最终成功走出迷宫 -> 巨大奖励(分数+100)!
    3. 学习策略:孩子不需要你告诉他迷宫地图,他通过成千上万次的尝试,自己摸索出一条能获得最高总分的路径(即最佳策略)。
  • 机器学习中的例子

    • AlphaGo下围棋:智能体(AlphaGo)与环境(棋盘)互动。每走一步棋,它都在评估局势。最终赢了(巨大奖励),它就“知道”之前的一系列走法是好的。
    • 机器人行走:智能体(机器人)尝试移动双腿。摔倒则惩罚,成功前进则奖励。最终学会平稳行走的策略。
    • 自动驾驶:智能体(自动驾驶系统)在模拟环境中驾驶。安全行驶奖励,撞车惩罚。从而学会驾驶策略。
  • 关键点:通过与环境的交互延迟奖励来学习最佳行为策略。

总结对比

方面监督学习无监督学习强化学习
学习数据带标签的数据集无标签的数据集无需初始数据,通过与环境交互产生数据
学习目标学习“输入”到“输出”的映射关系,进行预测发现数据内部的潜在结构(分组、降维等)学习一套能获得长期最大回报的行动策略
过程被动学习(从已标注的数据中学习)主动探索(从无标注的数据中发现)主动试错(在环境中尝试、获得反馈、调整)
反馈直接、即时的(每个数据点都有正确答案)无明确反馈延迟的、基于奖励/惩罚的信号

希望这个比喻能帮助你清晰地理解这三者之间的根本区别!欢迎大家一起讨论。

http://www.dtcms.com/a/427023.html

相关文章:

  • 18002.机器人电机姿态控制
  • mysql语句基本操作之select查询
  • 做mp3链接的网站宁波专业seo外包
  • Spring Boot 集成 EHCache 缓存解决方案
  • Spring Boot 缓存与验证码生成
  • 进攻------绕后------互换野区
  • Unity 3D笔记(脚本部分)——《B站阿发你好》
  • C++之类的组合
  • 服装购物网站策划书wordpress菜单栏移动下移
  • 【第五章:计算机视觉-项目实战之生成对抗网络实战】1.对抗生成网络原理-(1)对抗生成网络算法基础知识:基本思想、GAN的基本架构、应用场景、标注格式
  • win10软实时设置
  • leetcode 812. 最大三角形面积 简单
  • 机器学习+数字孪生:从诊断到自主决策的跨越
  • 若依前后端分离版学习笔记(十八)——页面权限,页签缓存以及图标,字典,参数的使用
  • 莱芜网站建设哪家好在线logo制作生成免费
  • 哈尔滨网站建设价格网站设计怎么学
  • 再发《管理世界》!智能制造试点DID(2000-2023)
  • SpringCloudGateway:像快递分拣中心一样的API网关
  • 真家宽IP vs 数据中心IP:Cliproxy为何成为跨境电商首选?
  • 声光可调滤光器(AOTF):光谱相机的“电子调谐旋钮”
  • skynet-socket.lua源码分析
  • 悠然无界大模型BLM-1.0:跨空间、跨任务与跨本体泛化的里程碑
  • 安康那个公司做网站好wordpress主题滑动
  • 提升UI走查效率:开发阶段的布局与CSS技巧
  • 5G RedCap模组在智慧城市建设中的应用分析
  • AI视频生成技术:从想象到现实的视觉革命
  • 如何将多个PDF文件中的图片批量提取出来
  • 【编译原理笔记】1.2 The Structure of Compiler
  • 序列化 实现保存临时数据
  • 【Rust GUI开发入门】编写一个本地音乐播放器(10. 拼装UI组件)