当前位置：首页 > news >正文

ML-Watermelonbook

news 2025/9/19 17:55:08

续：ML基本术语

testing：使用model进行predict的过程

testing sample/testing instance：被预测的样本/测试示例/测试例

y=f(x)：在学得f后，对testing instance（用x表示），可得到其预测标记y=f(x)

generalization：泛化能力，即所学模型适用于新样本的能力（因为所学模型不仅要在训练样本上干得好，更要很好地适用于“unseen instance”（未见示例）；具有强泛化能力的model能很好地适用于整个X）

i.i.d.（independent and identically distributed，独立同分布）：假设X中全体instance服从一个未知分布"D"，我们获得的每个instance都是独立地从这个D上采样获得的，即i.i.d.（一般而言，训练样本越多，我们得到的关于D的信息越多，越有可能通过学习获得具有强泛化能力的model）

续：关于prediction的学习任务分类

③clustering（聚类）：即将training set中的training instance分成若干组，每组称为一个“簇”（cluster），这些自动形成的cluster可能对应一些潜在的概念划分，例如“三室一卫”“一室一卫”，甚至“小公寓”“大平层”。（这样的学习过程有助于我们了解数据内在的规律，能为更深入地分析数据建立基础，但是在clustering中，“小公寓”“大平层”这种潜在概念我们事先是不知道的，而且学习过程中使用的training sample通常没有label）

关于label的学习任务分类

（顺便总结关于prediction的学习任务分类：classification/regression/clustering）

根据training sample是否拥有label，学习任务可分为以下2类

①supervised learning（监督学习/有导师学习）：以prediction任务中的classification and regression为典型代表

②unsupervised learning（无监督学习/无导师学习）：以clustering为典型代表

关于假设空间

induction（归纳）：generalization（泛化过程）

（广义的induction：从trainingset中总结出一般性规律；狭义的induction：从trainingset中学得概念，因此也叫“概念学习”或“概念形成”，概念学习中最基本的是布尔概念学习，即对“是/不是”这样的可表示为0/1布尔值的目标概念的学习）

例如，我们学得的是：

“Large flat layer is rooms=4;bathroom=3;landsize=400.0;lattitude=-38.8888;longtitude=166.6666”这样的概念，用布尔表达式写出来则是

“Large flat layer ↔(rooms=?)^(bathroom=?)^(landsize=?)^(lattitude=?)^(longitude=?)"

这里“？”表示尚未确定的数值，而我们的任务就是通过对training set进行学习，把“？”确定下来。

deduction（演绎）：specialization（特化过程）

首先，把学习过程看作“The process of searching through all spaces composed of hypothesis”，搜索目标是“Find hypothesis that match the training set”

这里我们的假设空间由形如“(rooms=?)^(bathroom=?)^(landsize=?)^(lattitude=?)^(longitude=?)”的可能取值所形成的hypothesis组成，例如lattitude和longitude可能有无数个取值，又或者它们无论取什么值都合适，那么可以用(lattitude=*)、(longitude=*)来表示，即

“Large flat layer ↔(rooms=4)^(bathroom=3)^(landsize=400.0)^(lattitude=*)^(longitude=*)"

此外，还需要考虑极端情况：比如Large flat layer这个概念根本就不成立，那我们可以用 ∅来表示这个hypothesis。

若rooms,bathrooom,landsize,lattitude,longtitude分别有4,3,8,10,10种可能取值，则假设空间规模大小=5×4×9×11×11+1=21781.

下图直观地展示了墨尔本房产的假设空间