当前位置: 首页 > news >正文

机器学习基础讲解

一、什么是机器学习

机器学习是一种让计算机能够从数据中学习并改进的技术,其核心逻辑可以通过三个关键要素来理解:

  • 针对特定任务,以大量经验数据为基础。
  • 存在衡量任务完成好坏的评判标准。
  • 通过分析经验数据,不断优化任务的完成效果。

一个广为人知的案例是 2016 年 3 月在韩国首尔,阿尔法围棋(AlphaGo)以总比分 4:1 战胜韩国围棋九段棋手李世石,这正是机器学习在复杂决策领域的精彩应用。

从流程上看,机器学习通过对历史数据(经验)进行训练,归纳出规律并构建模型,当输入新的未知数据(属性)时,模型就能做出预测,从而解决新的问题。

二、机器学习基本术语

1. 数据相关术语

  • 数据集:数据记录的集合,例如包含多个西瓜信息的记录集合。
  • 样本:数据集中的每条记录,是对一个事件或对象的描述,比如某个具体西瓜的信息。
  • 特征(属性):反映事件或对象某方面性质的事项,如西瓜的 “色泽”“根蒂”“敲声” 等。

如下表就是一个包含样本和特征的数据集示例:

编号

色泽根蒂敲声
1青绿蜷缩浊响
2乌黑蜷缩沉闷
3乌黑蜷缩浊响
4青绿蜷缩沉闷

2. 空间与表示

  • 属性空间(样本空间):由属性张成的空间。
  • 向量表示:若数据集\(D = \{x_1, x_2, ..., x_m\}\)包含m个示例,每个样本由d个属性描述,则每个样本\(x_i=(x_{i1}, x_{i2}, ..., x_{id})\)是d维样本空间X中的一个向量,d为样本\(x_i\)的 “维数”。

3. 训练与测试相关

  • 训练集:用于训练模型的数据集合,包含标记信息。例如带有 “好瓜” 与否标记的西瓜数据集:
  • 训练集:用于训练模型的数据集合,包含标记信息。例如带有 “好瓜” 与否标记的西瓜数据集:
  •  
    编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
    1青绿蜷缩浊响清晰凹陷硬滑0.6970.46
    2乌黑蜷缩沉闷清晰凹陷硬滑0.7740.376
    ..............................
  • 测试集:用于测试模型的数据集合,通常不包含标记信息(或标记信息用于验证),如下表中 “好瓜” 一栏为 “?”,等待模型预测:

编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜
15乌黑稍蜷浊响清晰稍凹软粘0.360.37
16浅白蜷缩浊响模糊平坦硬滑0.5930.042
17青绿蜷缩沉闷稍糊稍凹硬滑0.7190.103

三、机器学习的主要类型

1. 监督学习

利用已知类别的样本调整模型参数,数据集包含 “正确答案”(标记)。分为:

  • 分类:模型输出为有限的离散型数值。例如判断西瓜是否为好瓜,输出 “是” 或 “否”。
编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
2乌黑蜷缩沉闷
3乌黑蜷缩浊响
4青绿蜷缩沉闷
  • 回归:模型输出为某个范围内的连续型数值。例如预测房屋价格,价格可以是连续的数值。
编号房屋面积区域地铁附近价格
188A 区880000
2104B 区1500000
379A 区990000
490A 区

2. 无监督学习

提供数据集合但不提供标记信息,典型算法是 “聚类”,即将样本分成不同的类别。例如分析交易数据,像向购买尿布的人推荐葡萄酒,就是基于无监督学习发现的购买模式。

3. 集成学习

通过构建并结合多个学习器来完成学习任务,以提高模型的性能和稳定性。

四、模型评估与选择

1. 评估指标

  • 错误率:分类错误的样本数占样本总数的比例。
  • 精度:1 减去错误率。
  • 残差:模型实际预测输出与样本真实输出的差异。
  • 训练误差(经验误差):模型在训练集上的误差。
  • 泛化误差:模型在新样本上的误差。
  • 损失函数:衡量模型预测误差大小的函数,损失函数越小,模型越好,例如通过数据拟合直线时,预测价格与实际价格的差异衡量。

2. 模型常见问题

  • 欠拟合:模型未充分捕捉数据特征,特征集过小,对数据拟合不好,本质是对数据特征学习不够。例如将所有绿色的东西都认为是树叶。
  • 过拟合:模型过度学习训练数据,包括噪声特征,导致泛化能力差。例如认为树叶必须有锯齿,从而错误判断无锯齿的树叶。

3. 问题处理方式

  • 过拟合处理
    • 增加训练数据,减少噪声影响。
    • 降维,丢弃无用特征。
    • 正则化,减小参数大小。
    • 采用集成学习方法。
  • 欠拟合处理
    • 添加新特征,增强与样本标签的相关性。
    • 增加模型复杂度,提升拟合能力。
    • 减小正则化系数。

4. 模型选择原则

  • 奥卡姆剃刀原理:“如无必要,勿增实体”,选择能很好解释已知数据且简单的模型。
  • 没有免费的午餐(NFL):不存在对所有问题都有效的算法,谈论算法优劣需针对具体问题。

5. 评估方法

  • 留出法:将数据集划分为训练集(通常 70%)和测试集(通常 30%),注意保持数据分布一致(如分层采样),并多次随机划分避免不稳定性。
  • 交叉验证法:将数据集划分为k个相似互斥子集,每次用\(k-1\)个子集作为训练集,1 个作为测试集,进行k次训练和测试,返回均值,即 “k折交叉验证”。

6. 分类评估指标

  • TP(真正例):将正类预测为正类的数量。
  • FP(假正例):将反类预测为正类的数量。
  • TN(真反例):将反类预测为反类的数量。
  • FN(假反例):将正类预测为反类的数量。
  • 查准率(P):\(P=\frac{TP}{TP + FP}\),衡量预测为正类的样本中实际正类的比例。
  • 查全率(R):\(R=\frac{TP}{TP + FN}\),衡量实际正类中被正确预测的比例。

P-R 图可直观显示查全率和查准率,若一个学习器的 P-R 曲线被另一个完全 “包住”,则后者性能更优;若曲线交叉,则需结合具体场景判断。

五、机器学习应用领域

机器学习应用广泛,包括模式识别、计算机视觉、数据挖掘、语音识别、自然语言处理(如 Google Translate)等多个领域,正在深刻改变着我们的生活和工作方式。

通过以上内容,我们对机器学习的基本概念、类型、评估与选择等方面有了一个全面的了解,这些基础知识是深入学习机器学习的重要基石。

用通俗易懂的语言解释一下机器学习的基本术语

分享一些在日常生活中应用机器学习的具体例子

机器学习和深度学习有什么区别?

http://www.dtcms.com/a/331506.html

相关文章:

  • Java -- HashSet的全面说明-Map接口的常用方法-遍历方法
  • feed-forward系列工作集合与跟进(vggt以后)
  • 第二十三天:求逆序对
  • Day54 Java面向对象08 继承
  • 附:日期类Date的实现
  • Pytorch在FSDP模型中使用EMA
  • Leetcode_1780.判断一个数字是否可以表示成三的幂的和
  • UE5 C++ 删除文件
  • BotCash:GPT-5发布观察 工程优化的进步,还是技术突破的瓶颈?
  • Spring Boot + Redis Cluster 测试
  • 回流(Reflow)与重绘(Repaint):浏览器渲染性能优化核心
  • 演员念真主演《镇恶追凶》辽宁杀青
  • 数字电路上的通讯速度是越快越好还是越慢越好?
  • 【二分图】染色问题
  • 企业智脑UMI AIGC SaaS:解锁AI时代全场景生产力,中小微企业转型利器
  • Linux学习-多任务(进程)
  • **隐私沙盒:发散创新之光**随着互联网技术的飞速发展,数据安全和隐私保护逐渐成为人们关注的焦点。隐私沙盒作为一种新兴
  • Ping32 与绿盾再对比:Ping32 以创新与适配领跑数据安全​
  • 机器学习内容总结
  • 机器学习-基础入门:从概念到核心方法论
  • MySQL进阶——优化、日志
  • 第4节课:多模态大模型的核心能力(多模态大模型基础教程)
  • 疏老师-python训练营-Day45Tensorboard使用介绍
  • StarRocks优化统计分析
  • 好用的开源数据可视化设计工具LIGHT CHASER
  • Java List 集合详解(ArrayList、LinkedList、Vector)
  • pyecharts可视化图表-pie:从入门到精通
  • 适用工业分选和工业应用的高光谱相机有哪些?什么品牌比较好?
  • 这个就是哈希冲突
  • AI出题人给出的Java后端面经(十四)(日更)