当前位置: 首页 > news >正文

机器学习核心概念与实践笔记

一、机器学习的定义与核心逻辑

机器学习是通过分析大量经验数据,优化特定任务表现的过程,其核心逻辑包括:

  • 以经验数据为基础处理特定任务
  • 建立评判任务完成质量的标准
  • 通过数据迭代使任务表现持续提升

典型案例为 2016 年阿尔法围棋(AlphaGo)以 4:1 战胜李世石,体现了机器学习在复杂决策任务中的应用。

二、基本术语体系

  1. 数据相关术语

    • 数据集:数据记录的集合(如包含多个西瓜特征的表格)
    • 样本:数据集中的每条记录,描述一个对象或事件
    • 特征(属性):描述对象特征的事项(如西瓜的 “色泽”“根蒂”)
    • 属性空间:由所有属性构成的多维空间,每个样本对应空间中的一个向量
  2. 学习过程术语

    • 训练集:含标记信息(如 “好瓜 = 是 / 否”)的数据集,用于模型训练
    • 测试集:用于评估模型性能的数据集,通常包含未知结果的样本
    • 维数:样本包含的属性数量(如含 8 个属性的西瓜样本为 8 维数据)

三、学习任务分类

1. 监督学习

  • 特点:数据集包含 “正确答案”(标记信息)
  • 主要任务:
    • 分类:输出离散型结果(如判断西瓜是否为好瓜)
    • 回归:输出连续型数值(如预测房屋价格)

2. 无监督学习

  • 特点:仅提供数据集合,不包含标记信息
  • 典型任务:
    • 聚类:将样本自动划分为若干类别(如将数据分成 4 类)
    • 关联分析:发现数据间隐藏关联(如 “购买尿布的客户可能购买葡萄酒”)

3. 集成学习

通过构建并结合多个学习器完成任务,提升整体性能

四、模型评估指标

  1. 基础指标

    • 错误率:分类错误的样本占比
    • 精度:1 - 错误率,即分类正确的样本占比
    • 残差:预测输出与真实结果的差异
    • 训练误差:模型在训练集上的误差
    • 泛化误差:模型在新样本上的误差
    • 损失函数:衡量预测偏差的函数,值越小模型性能越好
  2. 分类任务专用指标

    • 混淆矩阵元素:
      • TP(真正例):正类预测为正类
      • FP(假正例):反类预测为正类
      • TN(真反例):反类预测为反类
      • FN(假反例):正类预测为反类
    • 查准率(P):P=TP/(TP+FP),预测为正类的样本中实际正类的比例
    • 查全率(R):R=TP/(TP+FN),实际正类中被正确预测的比例
    • P-R 图:直观展示查准率与查全率的关系,可用于比较不同模型性能

五、模型评估方法

  1. 留出法

    • 将数据集划分为互斥的训练集(通常 70%)和测试集(通常 30%)
    • 注意事项:保持数据分布一致性(如分层采样),多次随机划分以减少偏差
  2. 交叉验证法

    • 将数据集划分为 k 个相似子集,每次用 k-1 个子集训练,1 个子集测试
    • 重复 k 次后取均值作为结果(常用 10 折交叉验证)

六、模型优化:欠拟合与过拟合

  1. 过拟合

    表现:过度学习训练数据,包括噪声特征,泛化能力差解决方法:集成学习欠拟合表现:未能捕捉数据特征,拟合效果差解决方法:减小正则化系数增加模型复杂度添加新特征正则化(减小参数规模)特征降维增加训练数据量

首先,关于什么是机器学习,从本质来讲,机器学习就是让机器处理特定任务时,以大量经验数据为基础,先设定评判任务完成好坏的标准,再通过分析这些数据不断改进,让任务完成得越来越出色。简单说,就是机器从经验中归纳规律,再用规律预测未来;或者用历史数据训练出模型,再用模型对未知新数据进行预测。接着是机器学习的基本术语。

数据集是数据记录的集合,就像一堆关于西瓜的信息汇总起来就是一个西瓜数据集。数据集中的每条记录,比如每一条关于某个西瓜的描述,就是样本。而像西瓜的 “色泽”“根蒂”“敲声” 这些反映对象特征的事项,就是特征或属性。由这些属性构成的空间就是属性空间或样本空间,每个样本都可以看作是这个空间里的一个向量,样本包含的属性数量就是这个向量的维数,比如一个西瓜有 8 个属性,那它就是 8 维向量。、

在机器学习中,数据还分为训练集和测试集。训练集是用来训练模型的,里面包含 “正确答案”,也就是标记信息。比如有个西瓜数据集,不仅有西瓜的各种特征,还有 “好瓜” 这一标记,明确告诉我们这个西瓜是不是好瓜,这就是训练集。测试集则是用来检验模型好坏的,里面的样本没有标记信息,比如一些不知道是不是好瓜的西瓜数据,我们用训练好的模型去预测,以此判断模型的性能。

然后是机器学习的主要类型。第一种是监督学习,它的数据集有 “正确答案”,也就是标记信息,通过这些已知类别的样本调整分类器参数,让其达到理想性能。监督学习又分为分类和回归。分类是模型输出离散的结果,比如判断西瓜是好瓜还是坏瓜,结果只有 “是” 或 “否”;回归则是输出连续的数值,比如预测房屋价格,价格可以是某个范围内的任意数值。

第二种是无监督学习,它只提供数据,没有标记信息。最典型的就是聚类,就是把样本自动分成不同类别,比如根据一些数据特征把它们分成 4 类。无监督学习还有一个有趣的应用,比如分析交易数据发现,购买尿布的人可能也会购买葡萄酒,从而可以进行相关推荐,这就是挖掘数据间的隐藏关联。

第三种是集成学习,它通过构建多个学习器,再把它们结合起来完成学习任务,以此提高整体性能。再来看模型评估与选择。首先是一些基本评估指标,错误率是分类错误的样本数占总样本数的比例,精度则是 1 减去错误率,也就是分类正确的样本比例。残差是模型预测输出和样本真实输出的差异。训练误差是模型在训练集上的误差,泛化误差是模型在新样本上的误差。损失函数用来衡量预测误差,损失函数越小,模型越好,比如用房屋大小拟合直线预测房价,损失函数就衡量这条直线和实际数据的偏差。模型训练中常出现欠拟合和过拟合的问题。欠拟合是模型没抓住数据特征,不能很好地拟合数据,本质是对数据学习不够。过拟合则是模型把训练数据学过头了,连噪声都记住了,导致在新数据上表现很差,泛化能力弱。比如识别树叶时,过拟合的模型可能认为树叶必须有锯齿,于是把没锯齿的树叶判为不是树叶;欠拟合的模型可能觉得绿色的都是树叶,就把绿色的其他东西也当成树叶。

针对过拟合,解决办法有增加训练数据、降维、正则化(减小参数规模)、集成学习等。对于欠拟合,可以添加新特征、增加模型复杂度、减小正则化系数等选择模型有两个重要原则,奥卡姆剃刀原理是说在能很好解释数据的前提下,选更简单的模型;“没有免费的午餐” 理论则指出,没有哪种算法对所有问题都有效,谈论算法好坏要结合具体任务。

模型评估方法主要有留出法和交叉验证法。留出法是把数据集分成互斥的两部分,一部分当训练集(通常 70%),一部分当测试集(通常 30%),要注意保持数据分布一致,多随机划分几次减少偏差。交叉验证法是把数据集分成 k 个相似子集,每次用 k-1 个当训练集,1 个当测试集,重复 k 次,取均值作为结果,常用的是 10 折交叉验证。在分类任务中,有几个关键指标:TP(真正例,把正类判为正类)、FP(假正例,把反类判为正类)、TN(真反例,把反类判为反类)、FN(假反例,把正类判为反类)。根据这些可以算出查准率 P(TP/(TP+FP))和查全率 R(TP/(TP+FN)),通常两者难以同时兼顾。还可以通过 P-R 图直观比较不同模型的查准率和查全率,判断模型性能。

http://www.dtcms.com/a/331385.html

相关文章:

  • 安卓设备通过USB,连接继电器,再通过继电器开关闸机
  • 前端包管理工具
  • 【FreeRTOS】任务管理:创建与删除任务,任务优先级与阻塞
  • 计算机网络---传输控制协议Transmission Control Protocol(TCP)
  • Redis的 ​​散列(Hash)​​ 和 ​​列表(List)​​ 数据结构操作详解
  • 力扣-64.最小路径和
  • 【AI推理部署教程】使用 vLLM 运行智谱 GLM-4.5V 视觉语言模型推理服务
  • 电商双 11 美妆数据分析总结(补充)
  • 入门概述(面试常问)
  • 中久数创——笔试题
  • Android构建工具版本兼容性对照表
  • Git 中切换到指定 tag
  • 会议系统核心流程详解:创建、加入与消息交互
  • 卫星通信链路预算之七:上行载噪比计算
  • MySQL-dble分库分表方案
  • 【最新版】怎么下载mysqlclient并成功安装?
  • 物化视图优先迁移大表,缩短逻辑迁移时间
  • MySql——binlog和redolog的区别
  • uniapp开发动态添加密码验证
  • Go语言全面解析:从入门到精通
  • C/C++ 指针与内存操作详解——从一级指针到字符串转换函数的完整解析
  • 拒绝“孤岛式”作战,全方位构筑隧道应急通信解决方案
  • Java 学习笔记(基础篇2)
  • 13、C 语言结构体尺寸知识点总结
  • LeetCode 刷题【41. 缺失的第一个正数】
  • 【力扣322】零钱兑换
  • 非容器方式安装Prometheus和Grafana,以及nginx配置访问Grafana
  • GraphRAG查询(Query)流程实现原理分析
  • NetLimiter:精准掌控网络流量,优化网络体验
  • 《中国人工智能安全承诺框架》发布