当前位置: 首页 > news >正文

ML-Watermelonbook

续:ML基本术语

testing:使用model进行predict的过程

testing sample/testing instance:被预测的样本/测试示例/测试例

y=f(x):在学得f后,对testing instance(用x表示),可得到其预测标记y=f(x)

generalization:泛化能力,即所学模型适用于新样本的能力(因为所学模型不仅要在训练样本上干得好,更要很好地适用于“unseen instance”(未见示例);具有强泛化能力的model能很好地适用于整个X)

i.i.d.independent and identically distributed,独立同分布):假设X中全体instance服从一个未知分布"D",我们获得的每个instance都是独立地从这个D上采样获得的,即i.i.d.(一般而言,训练样本越多,我们得到的关于D的信息越多,越有可能通过学习获得具有强泛化能力的model)

续:关于prediction的学习任务分类

clustering(聚类):即将training set中的training instance分成若干组,每组称为一个“簇”(cluster),这些自动形成的cluster可能对应一些潜在的概念划分,例如“三室一卫”“一室一卫”,甚至“小公寓”“大平层”。(这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础,但是在clustering中,“小公寓”“大平层”这种潜在概念我们事先是不知道的,而且学习过程中使用的training sample通常没有label)

关于label的学习任务分类

(顺便总结关于prediction的学习任务分类:classification/regression/clustering

根据training sample是否拥有label,学习任务可分为以下2类

supervised learning(监督学习/有导师学习):以prediction任务中的classification and regression为典型代表

unsupervised learning(无监督学习/无导师学习):以clustering为典型代表

关于假设空间

induction(归纳):generalization(泛化过程)

(广义的induction:从trainingset中总结出一般性规律;狭义的induction:从trainingset中学得概念,因此也叫“概念学习”或“概念形成”,概念学习中最基本的是布尔概念学习,即对“是/不是”这样的可表示为0/1布尔值的目标概念的学习)

例如,我们学得的是:

Large flat layer is rooms=4;bathroom=3;landsize=400.0;lattitude=-38.8888;longtitude=166.6666”这样的概念,用布尔表达式写出来则是

Large flat layer ↔(rooms=?)^(bathroom=?)^(landsize=?)^(lattitude=?)^(longitude=?)"

这里“?”表示尚未确定的数值,而我们的任务就是通过对training set进行学习,把“?”确定下来。

deduction(演绎):specialization(特化过程)

首先,把学习过程看作“The process of searching through all spaces composed of hypothesis”,搜索目标是“Find hypothesis that match the training set

这里我们的假设空间由形如“(rooms=?)^(bathroom=?)^(landsize=?)^(lattitude=?)^(longitude=?)”的可能取值所形成的hypothesis组成,例如lattitudelongitude可能有无数个取值,又或者它们无论取什么值都合适,那么可以用(lattitude=*)、(longitude=*)来表示,即

Large flat layer ↔(rooms=4)^(bathroom=3)^(landsize=400.0)^(lattitude=*)^(longitude=*)"

此外,还需要考虑极端情况:比如Large flat layer这个概念根本就不成立,那我们可以用 来表示这个hypothesis

rooms,bathrooom,landsize,lattitude,longtitude分别有4,3,8,10,10种可能取值,则假设空间规模大小=5×4×9×11×11+1=21781.

下图直观地展示了墨尔本房产的假设空间

(今天先学到这⑧ 明天见)

http://www.dtcms.com/a/390356.html

相关文章:

  • E/E架构新课题的解决方案
  • 【CVPR 2025】用于密集图像预测的频率动态卷积
  • 整体设计 语言拼凑/逻辑拆解/词典缝合 之 1 表达词项的散列/序列/行列 (豆包助手)
  • FPGA学习篇——Verilog学习之半加器的实现
  • Python快速入门专业版(三十五):函数实战2:文件内容统计工具(统计行数/单词数/字符数)
  • CSS的文本样式二【文本布局】
  • redis配置与优化
  • STM32 单片机 - 中断
  • 【网络工程师】ACL基础实验
  • 小实验--LCD1602显示字符和字符串
  • Java 的双亲委派模型(Parent Delegation Model)
  • ​​[硬件电路-249]:LDO(低压差线性稳压器)专用于线性电源,其核心设计逻辑与线性电源高度契合,而与开关电源的工作原理存在本质冲突。
  • conda命令行指令大全
  • TCP三次握手与四次挥手
  • Python读取Excel中指定列的所有单元格内容
  • 【DMA】DMA入门:理解DMA与CPU的并行
  • Redis数据库(一)—— 初步理解Redis:从基础配置到持久化机制
  • Salesforce中的事件驱动架构:构建灵活可扩展的企业应用
  • OpenCV实现消除功能
  • Qt QValueAxis详解
  • deepseek大模型部署
  • 消息队列与定时器:如何优雅地处理耗时任务?
  • Maya绑定基础知识总结合集:父子关系和父子约束对比、目标约束示例
  • STM32开发(中断模式:外部中断)
  • (圆方树)洛谷 P4630 APIO2018 铁人两项 题解
  • windows10 使用moon-pilot并配置模型
  • Linux笔记---epoll用法及原理:从内核探究文件等待队列的本质-回调机制
  • Python快速入门专业版(三十三):函数参数陷阱:默认参数的“可变对象”问题(避坑指南)
  • Spring Security 框架 实践小项目(实现不同用户登录显示不同菜单以及每个菜单不同权限)
  • 开发避坑指南(49):Java Stream 对List中的字符串字段求和