学习笔记一:基本术语
基本术语
- 数据集:收集的一批数据,比如一堆西瓜的各种测量记录。
- 样本/实例:数据集里的一个对象,比如一只具体西瓜。
- 属性/特征:描述样本的每个方面,比如“色泽”“根蒂”“敲声”。
- 属性值:某个西瓜在一个属性上的具体表现,比如“色泽=青绿”“根蒂=卷曲”。
- 属性空间:所有属性可能的取值组合,比如“色泽/根蒂/敲声”所有组合。
- 样本空间:所有可能样本组成的空间。
- 特征向量:用一组数或标签把每个样本的属性排成一行,比如【青绿, 蜷缩, 浊响】。
- 维数:描述样本时用几个属性,比如这里有3个属性,维数就是3。
- 训练集:用来“学习规律”的那部分西瓜样本。
- 训练样本:训练集里的每一个西瓜。
- 学习/训练:用训练集让模型“看例子,总结规则”的过程。
- 假设:模型尝试总结出来的判断规则,比如“色泽青绿且纹理清晰 → 好瓜”。
- 标签/标记:我们要预测的目标,比如“好瓜”或“坏瓜”。
- 标记空间/输出空间:所有可能的标签种类,比如“{好瓜,坏瓜}”。
- 预测:让模型对新西瓜判断好坏的过程。
- 分类:目标是给每个样本分类别,比如“好瓜”或“坏瓜”。
- 回归:目标是给样本输出实际数值,比如根据属性预测糖度分值(这里图片未细谈,可省略不展开)。
- 聚类:把没有标签的西瓜自动分组,比如“浅色瓜”和“本地瓜”等。
- 监督学习:训练数据有标签,比如西瓜都标注了“好瓜还是坏瓜”。
- 无监督学习:训练时没标签,比如只给特征,不标“好坏”。
假设空间
在机器学习里,我们常常不是把规则直接写死,而是让算法通过数据自动“归纳”出规律。
- 归纳:从一些具体例子(训练集西瓜)总结出一般规律,比如:看好几个好瓜后总结“青绿+蜷缩+浊响≈好瓜”。
- 演绎:则是从一个公理或通用公式出发,推出具体情况,在机器学习里不常单独用。
- 假设(hypothesis):就是模型能学出来的一个“判断准则”,比方说“色泽=青绿并且根蒂=蜷缩并且敲声=浊响就判为好瓜”。
- 假设空间:所有可能的“判断规则”的集合,也就是算法能猜测、能选择的全部方案。例如,如果色泽有3种,根蒂2种,敲声3种,那全部属性可能组合一共就有3x2x3=18种情况。
- 版本空间: 不要只挑一种规则,可以保留所有跟现有训练样本都不矛盾(吻合)的假设,这些假设组成的子集叫“版本空间”。
归纳偏好
- 机器学习的目标是:不只让模型记住训练集,更希望它能判断“没见过的新瓜”。
- 现实中常常不止一个规则能完美解释已有数据,这时要靠算法自己的“偏好”来选。
- 归纳偏好,就是学习器在这些规则里喜欢“更简单”还是“更细致”,比如一般人会觉得“只要青绿→好瓜”比“青绿且蜷缩且浊响→好瓜”更有推广力。
- 没有归纳偏好,模型碰到没见过属性组合时就只能蒙,不能推广到新瓜。
- 不同算法的归纳偏好不同,所以最终学到的规则和泛化能力也有区别。
