当前位置：首页 > news >正文

学习笔记一：基本术语

news 2025/10/31 13:30:52

基本术语

数据集：收集的一批数据，比如一堆西瓜的各种测量记录。
样本/实例：数据集里的一个对象，比如一只具体西瓜。
属性/特征：描述样本的每个方面，比如“色泽”“根蒂”“敲声”。
属性值：某个西瓜在一个属性上的具体表现，比如“色泽=青绿”“根蒂=卷曲”。
属性空间：所有属性可能的取值组合，比如“色泽/根蒂/敲声”所有组合。
样本空间：所有可能样本组成的空间。
特征向量：用一组数或标签把每个样本的属性排成一行，比如【青绿, 蜷缩, 浊响】。
维数：描述样本时用几个属性，比如这里有3个属性，维数就是3。
训练集：用来“学习规律”的那部分西瓜样本。
训练样本：训练集里的每一个西瓜。
学习/训练：用训练集让模型“看例子，总结规则”的过程。
假设：模型尝试总结出来的判断规则，比如“色泽青绿且纹理清晰 → 好瓜”。
标签/标记：我们要预测的目标，比如“好瓜”或“坏瓜”。
标记空间/输出空间：所有可能的标签种类，比如“{好瓜，坏瓜}”。
预测：让模型对新西瓜判断好坏的过程。
分类：目标是给每个样本分类别，比如“好瓜”或“坏瓜”。
回归：目标是给样本输出实际数值，比如根据属性预测糖度分值（这里图片未细谈，可省略不展开）。
聚类：把没有标签的西瓜自动分组，比如“浅色瓜”和“本地瓜”等。
监督学习：训练数据有标签，比如西瓜都标注了“好瓜还是坏瓜”。
无监督学习：训练时没标签，比如只给特征，不标“好坏”。

假设空间

在机器学习里，我们常常不是把规则直接写死，而是让算法通过数据自动“归纳”出规律。

归纳：从一些具体例子（训练集西瓜）总结出一般规律，比如：看好几个好瓜后总结“青绿+蜷缩+浊响≈好瓜”。
演绎：则是从一个公理或通用公式出发，推出具体情况，在机器学习里不常单独用。
假设（hypothesis）：就是模型能学出来的一个“判断准则”，比方说“色泽=青绿并且根蒂=蜷缩并且敲声=浊响就判为好瓜”。
假设空间：所有可能的“判断规则”的集合，也就是算法能猜测、能选择的全部方案。例如，如果色泽有3种，根蒂2种，敲声3种，那全部属性可能组合一共就有3x2x3=18种情况。
版本空间：不要只挑一种规则，可以保留所有跟现有训练样本都不矛盾（吻合）的假设，这些假设组成的子集叫“版本空间”。