ML-Watermelonbook
续:ML基本术语
testing:使用model进行predict的过程
testing sample/testing instance:被预测的样本/测试示例/测试例
y=f(x):在学得f后,对testing instance(用x表示),可得到其预测标记y=f(x)
generalization:泛化能力,即所学模型适用于新样本的能力(因为所学模型不仅要在训练样本上干得好,更要很好地适用于“unseen instance”(未见示例);具有强泛化能力的model能很好地适用于整个X)
i.i.d.(independent and identically distributed,独立同分布):假设X中全体instance服从一个未知分布"D",我们获得的每个instance都是独立地从这个D上采样获得的,即i.i.d.(一般而言,训练样本越多,我们得到的关于D的信息越多,越有可能通过学习获得具有强泛化能力的model)
续:关于prediction的学习任务分类
③clustering(聚类):即将training set中的training instance分成若干组,每组称为一个“簇”(cluster),这些自动形成的cluster可能对应一些潜在的概念划分,例如“三室一卫”“一室一卫”,甚至“小公寓”“大平层”。(这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础,但是在clustering中,“小公寓”“大平层”这种潜在概念我们事先是不知道的,而且学习过程中使用的training sample通常没有label)
关于label的学习任务分类
(顺便总结关于prediction的学习任务分类:classification/regression/clustering)
根据training sample是否拥有label,学习任务可分为以下2类
①supervised learning(监督学习/有导师学习):以prediction任务中的classification and regression为典型代表
②unsupervised learning(无监督学习/无导师学习):以clustering为典型代表
关于假设空间
induction(归纳):generalization(泛化过程)
(广义的induction:从trainingset中总结出一般性规律;狭义的induction:从trainingset中学得概念,因此也叫“概念学习”或“概念形成”,概念学习中最基本的是布尔概念学习,即对“是/不是”这样的可表示为0/1布尔值的目标概念的学习)
例如,我们学得的是:
“Large flat layer is rooms=4;bathroom=3;landsize=400.0;lattitude=-38.8888;longtitude=166.6666”这样的概念,用布尔表达式写出来则是
“Large flat layer ↔(rooms=?)^(bathroom=?)^(landsize=?)^(lattitude=?)^(longitude=?)"
这里“?”表示尚未确定的数值,而我们的任务就是通过对training set进行学习,把“?”确定下来。
deduction(演绎):specialization(特化过程)
首先,把学习过程看作“The process of searching through all spaces composed of hypothesis”,搜索目标是“Find hypothesis that match the training set”
这里我们的假设空间由形如“(rooms=?)^(bathroom=?)^(landsize=?)^(lattitude=?)^(longitude=?)”的可能取值所形成的hypothesis组成,例如lattitude和longitude可能有无数个取值,又或者它们无论取什么值都合适,那么可以用(lattitude=*)、(longitude=*)来表示,即
“Large flat layer ↔(rooms=4)^(bathroom=3)^(landsize=400.0)^(lattitude=*)^(longitude=*)"
此外,还需要考虑极端情况:比如Large flat layer这个概念根本就不成立,那我们可以用 ∅来表示这个hypothesis。
若rooms,bathrooom,landsize,lattitude,longtitude分别有4,3,8,10,10种可能取值,则假设空间规模大小=5×4×9×11×11+1=21781.
下图直观地展示了墨尔本房产的假设空间
(今天先学到这⑧ 明天见)