机器学习学习报告
一、机器学习的定义
机器学习是通过处理特定任务,以大量经验为基础,依据一定的评判标准,分析经验数据,从而使任务完成得更好的过程。
二、机器学习的基本流程
机器学习的基本流程可概括为:基于历史数据进行训练,得到模型,再将新的输入属性输入模型,从而对未知的新数据进行预测。这一过程本质上是从经验中归纳规律,进而运用规律预测未来问题。
三、机器学习的应用领域
机器学习的应用领域十分广泛,主要包括模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理等。例如 Google Translate(谷歌翻译)就是自然语言处理领域应用机器学习的典型案例。
四、机器学习的基本术语
- 数据集:数据记录的集合称为一个 “数据集”(data set)。
- 样本:数据集中每条记录是关于一个事件或对象的描述,称为 “样本”。
- 特征(属性):反映事件或对象在某方面的表现或性质的事项,例如 “色泽”。如下表中 “色泽”“根蒂”“敲声” 均为特征:
编号 | 色泽 | 根蒂 | 敲声 |
---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 |
2 | 乌黑 | 蜷缩 | 沉闷 |
3 | 乌黑 | 蜷缩 | 浊响 |
4 | 青绿 | 蜷缩 | 沉闷 |
- 属性空间:属性张成的空间称为 “属性空间” 或 “样本空间”。
- 向量表示:一般地,令D={x1,x2,…,xm}表示包含m个示例的数据集,每个样本由d个属性描述,则每个样本xi=(xi1,xi2,…,xid)是d维样本空间X中的一个向量,d称为样本xi的 “维数”。
- 训练集:机器学习中用于训练模型的数据集合,包含标记信息。如下表就是一个关于 “好瓜” 判断的训练集,其中 “好瓜” 一列即为标记信息:
编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 好瓜 |
---|---|---|---|---|---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.697 | 0.46 | 是 |
2 | 乌黑 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 0.774 | 0.376 | 是 |
3 | 乌黑 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.634 | 0.264 | 是 |
4 | 青绿 | 蜷缩 | 沉闷 | 清晰 | 凹陷 | 硬滑 | 0.608 | 0.318 | 是 |
5 | 浅白 | 蜷缩 | 浊响 | 清晰 | 凹陷 | 硬滑 | 0.556 | 0.215 | 是 |
6 | 青绿 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 0.403 | 0.237 | 是 |
7 | 乌黑 | 稍蜷 | 浊响 | 稍糊 | 稍凹 | 软粘 | 0.481 | 0.149 | 是 |
8 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 硬滑 | 0.437 | 0.211 | 是 |
9 | 乌黑 | 稍蜷 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 0.666 | 0.091 | 否 |
10 | 青绿 | 硬挺 | 清脆 | 清晰 | 平坦 | 软粘 | 0.243 | 0.267 | 否 |
11 | 浅白 | 硬挺 | 清脆 | 模糊 | 平坦 | 硬滑 | 0.245 | 0.057 | 否 |
12 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 软粘 | 0.343 | 0.099 | 否 |
13 | 青绿 | 稍蜷 | 浊响 | 稍糊 | 凹陷 | 硬滑 | 0.639 | 0.161 | 否 |
14 | 浅白 | 稍蜷 | 沉闷 | 稍糊 | 凹陷 | 硬滑 | 0.657 | 0.198 | 否 |
- 测试集:机器学习中用于测试模型的数据集合。如下表中 “好瓜” 一列的结果未知,可作为测试集来检验模型的预测效果:
编号 | 色泽 | 根蒂 | 敲声 | 纹理 | 脐部 | 触感 | 密度 | 含糖率 | 好瓜 |
---|---|---|---|---|---|---|---|---|---|
15 | 乌黑 | 稍蜷 | 浊响 | 清晰 | 稍凹 | 软粘 | 0.36 | 0.37 | ? |
16 | 浅白 | 蜷缩 | 浊响 | 模糊 | 平坦 | 硬滑 | 0.593 | 0.042 | ? |
17 | 青绿 | 蜷缩 | 沉闷 | 稍糊 | 稍凹 | 硬滑 | 0.719 | 0.103 | ? |
五、机器学习的主要类型
- 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,其数据集由 “正确答案”(标记)组成。监督学习又可分为分类和回归:
- 分类:机器学习模型输出的结果被限定为有限的一组值,即离散型数值。例如判断西瓜是否为好瓜,输出结果为 “是” 或 “否”。
- 回归:机器学习模型的输出可以是某个范围内的任何数值,即连续型数值。例如预测房屋价格,价格可以是某个范围内的任意数值。
- 无监督学习:提供数据集合但是不提供标记信息的学习过程。聚类是无监督学习的一种重要算法,例如将样本分成若干类。此外,无监督学习还可应用于关联分析,如分析向购买尿布的人推荐葡萄酒是否会促使其购买。
- 集成学习:通过构建并结合多个学习器来完成学习任务,以提高学习性能。
六、模型评估与选择
- 评估指标
- 错误率:分类错误的样本数占样本总数的比例。
- 精度:1 减去错误率。
- 残差:学习器的实际预测输出与样本的真实输出之间的差异。
- 训练误差(经验误差):学习器在训练集上的误差。
- 泛化误差:学习器在新样本上的误差。
- 损失函数:用来衡量模型预测误差大小的函数,损失函数越小,模型越好。
- 模型常见问题
- 欠拟合:模型没有很好地捕捉到数据特征、特征集过小导致模型不能很好地拟合数据,本质上是对数据特征学习不够。
- 过拟合:把训练数据学习得太彻底,以至于把噪声数据的特征也学习到了,特征集过大,导致在后期测试时不能够很好地识别数据,不能正确分类,模型泛化能力太差。
- 过拟合与欠拟合的处理方式
- 过拟合的处理方式:增加训练数据;降维,即丢弃一些不能帮助正确预测的特征;采用正则化技术,保留所有特征,但减少参数的大小;使用集成学习方法,把多个模型集成在一起,降低单一模型的过拟合风险。
- 欠拟合的处理方式:添加新特征,当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合;增加模型复杂度,简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力;减小正则化系数,正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减小正则化系数。
- 选择模型的基本原则
- 奥卡姆剃刀原理:“如无必要,勿增实体”,即 “简单有效原理”。在所有可能选择的模型中,应该选择能够很好地解释已知数据,并且十分简单的模型。如果简单的模型已经够用,不应该一味地追求更小的训练误差,而把模型变得越来越复杂。
- 没有免费的午餐(No Free Lunch,NFL):对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另外一些问题上比纯随机搜索算法更差。在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。
七、模型评估方法
- 留出法:直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S,另一部分用作测试集T。通常训练集和测试集的比例为 70%、30%。划分时需注意:尽可能保持数据分布的一致性,在分类任务中,保留类别比例的采样方法称为 “分层采样”;采用若干次随机划分避免单次使用留出法的不稳定性。
- 交叉验证法:先将数据集D划分为k个大小相似的互斥子集,每次采用k−1个子集的并集作为训练集,剩下的那个子集作为测试集。进行k次训练和测试,最终返回k个测试结果的均值,又称为 “k折交叉验证”。
八、模型评估的其他重要指标
- 相关术语
- TP(True positive,真正例):将正类预测为正类数。
- FP(False positive,假正例):将反类预测为正类数。
- TN(True negative,真反例):将反类预测为反类数。
- FN(False negative,假反例):将正类预测为反类数。
- 查准率(精确率)P 和查全率(召回率)R
- 查准率P=TP+FPTP
- 查全率R=TP+FNTP
- 一般来说,查准率P高时,查全率R往往偏低;而查全率R高时,查准率P往往偏低。
- P-R 图:直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时,若一个学习器的 P-R 曲线被另一个学习器的曲线完全 “包住”,则可断言后者的性能优于前者;如果两个学习器的 P-R 曲线发生了交叉,则难以一般性地断言两者孰优孰劣。