当前位置: 首页 > news >正文

机器学习学习报告

一、机器学习的定义

机器学习是通过处理特定任务,以大量经验为基础,依据一定的评判标准,分析经验数据,从而使任务完成得更好的过程。

二、机器学习的基本流程

机器学习的基本流程可概括为:基于历史数据进行训练,得到模型,再将新的输入属性输入模型,从而对未知的新数据进行预测。这一过程本质上是从经验中归纳规律,进而运用规律预测未来问题。

三、机器学习的应用领域

机器学习的应用领域十分广泛,主要包括模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理等。例如 Google Translate(谷歌翻译)就是自然语言处理领域应用机器学习的典型案例。

四、机器学习的基本术语

  1. 数据集:数据记录的集合称为一个 “数据集”(data set)。
  2. 样本:数据集中每条记录是关于一个事件或对象的描述,称为 “样本”。
  3. 特征(属性):反映事件或对象在某方面的表现或性质的事项,例如 “色泽”。如下表中 “色泽”“根蒂”“敲声” 均为特征:

编号色泽根蒂敲声
1青绿蜷缩浊响
2乌黑蜷缩沉闷
3乌黑蜷缩浊响
4青绿蜷缩沉闷

  1. 属性空间:属性张成的空间称为 “属性空间” 或 “样本空间”。
  2. 向量表示:一般地,令D={x1​,x2​,…,xm​}表示包含m个示例的数据集,每个样本由d个属性描述,则每个样本xi​=(xi1​,xi2​,…,xid​)是d维样本空间X中的一个向量,d称为样本xi​的 “维数”。
  3. 训练集:机器学习中用于训练模型的数据集合,包含标记信息。如下表就是一个关于 “好瓜” 判断的训练集,其中 “好瓜” 一列即为标记信息:

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
1青绿蜷缩浊响清晰凹陷硬滑0.6970.46
2乌黑蜷缩沉闷清晰凹陷硬滑0.7740.376
3乌黑蜷缩浊响清晰凹陷硬滑0.6340.264
4青绿蜷缩沉闷清晰凹陷硬滑0.6080.318
5浅白蜷缩浊响清晰凹陷硬滑0.5560.215
6青绿稍蜷浊响清晰稍凹软粘0.4030.237
7乌黑稍蜷浊响稍糊稍凹软粘0.4810.149
8乌黑稍蜷浊响清晰稍凹硬滑0.4370.211
9乌黑稍蜷沉闷稍糊稍凹硬滑0.6660.091
10青绿硬挺清脆清晰平坦软粘0.2430.267
11浅白硬挺清脆模糊平坦硬滑0.2450.057
12浅白蜷缩浊响模糊平坦软粘0.3430.099
13青绿稍蜷浊响稍糊凹陷硬滑0.6390.161
14浅白稍蜷沉闷稍糊凹陷硬滑0.6570.198

  1. 测试集:机器学习中用于测试模型的数据集合。如下表中 “好瓜” 一列的结果未知,可作为测试集来检验模型的预测效果:

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
15乌黑稍蜷浊响清晰稍凹软粘0.360.37
16浅白蜷缩浊响模糊平坦硬滑0.5930.042
17青绿蜷缩沉闷稍糊稍凹硬滑0.7190.103

五、机器学习的主要类型

  1. 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,其数据集由 “正确答案”(标记)组成。监督学习又可分为分类和回归:
    • 分类:机器学习模型输出的结果被限定为有限的一组值,即离散型数值。例如判断西瓜是否为好瓜,输出结果为 “是” 或 “否”。
    • 回归:机器学习模型的输出可以是某个范围内的任何数值,即连续型数值。例如预测房屋价格,价格可以是某个范围内的任意数值。
  2. 无监督学习:提供数据集合但是不提供标记信息的学习过程。聚类是无监督学习的一种重要算法,例如将样本分成若干类。此外,无监督学习还可应用于关联分析,如分析向购买尿布的人推荐葡萄酒是否会促使其购买。
  3. 集成学习:通过构建并结合多个学习器来完成学习任务,以提高学习性能。

六、模型评估与选择

  1. 评估指标
    • 错误率:分类错误的样本数占样本总数的比例。
    • 精度:1 减去错误率。
    • 残差:学习器的实际预测输出与样本的真实输出之间的差异。
    • 训练误差(经验误差):学习器在训练集上的误差。
    • 泛化误差:学习器在新样本上的误差。
    • 损失函数:用来衡量模型预测误差大小的函数,损失函数越小,模型越好。
  2. 模型常见问题
    • 欠拟合:模型没有很好地捕捉到数据特征、特征集过小导致模型不能很好地拟合数据,本质上是对数据特征学习不够。
    • 过拟合:把训练数据学习得太彻底,以至于把噪声数据的特征也学习到了,特征集过大,导致在后期测试时不能够很好地识别数据,不能正确分类,模型泛化能力太差。
  3. 过拟合与欠拟合的处理方式
    • 过拟合的处理方式:增加训练数据;降维,即丢弃一些不能帮助正确预测的特征;采用正则化技术,保留所有特征,但减少参数的大小;使用集成学习方法,把多个模型集成在一起,降低单一模型的过拟合风险。
    • 欠拟合的处理方式:添加新特征,当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合;增加模型复杂度,简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力;减小正则化系数,正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减小正则化系数。
  4. 选择模型的基本原则
    • 奥卡姆剃刀原理:“如无必要,勿增实体”,即 “简单有效原理”。在所有可能选择的模型中,应该选择能够很好地解释已知数据,并且十分简单的模型。如果简单的模型已经够用,不应该一味地追求更小的训练误差,而把模型变得越来越复杂。
    • 没有免费的午餐(No Free Lunch,NFL):对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另外一些问题上比纯随机搜索算法更差。在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。

      七、模型评估方法

    • 留出法:直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S,另一部分用作测试集T。通常训练集和测试集的比例为 70%、30%。划分时需注意:尽可能保持数据分布的一致性,在分类任务中,保留类别比例的采样方法称为 “分层采样”;采用若干次随机划分避免单次使用留出法的不稳定性。
    • 交叉验证法:先将数据集D划分为k个大小相似的互斥子集,每次采用k−1个子集的并集作为训练集,剩下的那个子集作为测试集。进行k次训练和测试,最终返回k个测试结果的均值,又称为 “k折交叉验证”。
    • 八、模型评估的其他重要指标

    • 相关术语
      • TP(True positive,真正例):将正类预测为正类数。
      • FP(False positive,假正例):将反类预测为正类数。
      • TN(True negative,真反例):将反类预测为反类数。
      • FN(False negative,假反例):将正类预测为反类数。
    • 查准率(精确率)P 和查全率(召回率)R
      • 查准率P=TP+FPTP​
      • 查全率R=TP+FNTP​
      • 一般来说,查准率P高时,查全率R往往偏低;而查全率R高时,查准率P往往偏低。
    • P-R 图:直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时,若一个学习器的 P-R 曲线被另一个学习器的曲线完全 “包住”,则可断言后者的性能优于前者;如果两个学习器的 P-R 曲线发生了交叉,则难以一般性地断言两者孰优孰劣。
http://www.dtcms.com/a/331776.html

相关文章:

  • 【博客系统测试报告】---接口自动化测试
  • AI幻觉终结之后:GPT-5开启的“可靠性”新赛道与开发者生存指南
  • JAVA中正则表达式详解
  • 前端八股文-CSS3篇
  • 考研408《计算机组成原理》复习笔记,第四章(2)——指令寻址和数据寻址
  • K8s-kubernetes(二)资源限制-详细介绍
  • 2025 年电赛 C 题 发挥部分 1:多正方形 / 重叠正方形高精度识别与最小边长测量
  • 悲观锁乐观锁与事务注解在项目实战中的应用场景及详细解析
  • 如何解决EMI中传导干扰
  • Spring-解决项目依赖异常问题
  • 【从零开始java学习|第六篇】运算符的使用与注意事项
  • 因果推断在用户流失预警的案例研究
  • 第2节:多模态的核心问题(多模态大模型基础教程)
  • 【Unity3D】Spine 3.8版本使用记录
  • 机器学习入门:从概念到实践的核心知识梳理
  • 【Linux系统】进程的生命旅程:从创建到独立的演绎
  • 智能体评测技术与实践:从评估维度到DeepEval实战指南
  • LeetCode Day6 -- 图
  • 速卖通商品详情接口深度开发:从多语言解析到跨境合规处理
  • 从零开始搭建React+TypeScript+webpack开发环境——基于MobX的枚举数据缓存方案设计与实践
  • react + i18n:国际化
  • HTML5二十四节气网站源码
  • 【web自动化】-1- 前端基础及selenium原理和环境安装
  • 传输层协议TCP(3)
  • Observer:优雅管理事件订阅的秘密武器
  • TCP 连接管理:深入分析四次握手与三次挥手
  • C++:浅尝gdb
  • 创客匠人:共情力在创始人IP塑造中的作用
  • 使用Docker和Miniconda3搭建YOLOv13开发环境
  • 如何在 Ubuntu 24.04 LTS Noble Linux 上安装 Wine HQ