当前位置: 首页 > news >正文

机器学习初学

一、机器学习的定义

机器学习是一种通过分析大量经验数据,提升特定任务表现的方法。其核心逻辑包括:

  • 针对特定任务(如预测 “好瓜”、围棋对弈等);
  • 有明确的评判标准(如预测准确率、对弈胜负等);
  • 通过对经验数据(历史数据)的分析,归纳规律形成模型,从而让任务完成得更好(如 AlphaGo 通过学习大量棋谱提升对弈能力)。

二、机器学习应用领域

文档提到的主要应用领域及其功能如下:

  • 模式识别:识别数据中的模式(如字符、图像中的特征模式),是许多领域的基础。
  • 计算机视觉:让计算机 “看懂” 图像 / 视频(如物体识别、人脸识别)。
  • 数据挖掘:从大量数据中提取隐藏的有用信息(如用户行为规律)。
  • 语音识别:将语音信号转换为文本(如语音助手的语音转文字功能)。
  • 自然语言处理:让计算机理解和处理人类语言(如 Google Translate 的翻译功能)。
  • 统计学习:基于统计学理论,通过数据构建模型并进行预测。

三、机器学习基本术语

  1. 数据集:数据记录的集合(如包含 17 条西瓜信息的表格)。
  2. 样本:数据集中的每条记录,描述一个事件或对象(如表格中编号为 1 的西瓜信息)。
  3. 特征(属性):反映对象性质的事项(如西瓜的 “色泽”“根蒂”)。
  4. 属性空间(样本空间):由所有属性张成的空间(如 “色泽 + 根蒂 + 敲声” 构成的三维空间)。
  5. 向量表示:样本在属性空间中的数值化表达,如样本\(x_i=(x_{i1}, x_{i2}, ..., x_{id})\)(d为属性数量,即维数)。
  6. 训练集:用于训练模型的数据集,包含标记信息(如已知 “好瓜” 与否的西瓜数据)。
  7. 测试集:用于检验模型性能的数据集,通常标记信息未知(如需要预测 “好瓜” 与否的新西瓜数据)。

四、学习类型

  1. 监督学习

    • 定义:使用带 “正确答案”(标记)的样本训练模型,调整参数以优化性能。
    • 分类:输出为离散值(如预测 “好瓜” 或 “坏瓜”)。
    • 回归:输出为连续值(如预测房屋价格,价格可在一定范围内取任意值)。
  2. 无监督学习

    • 定义:仅提供数据,不提供标记信息,模型自主发现数据中的规律。
    • 典型任务:聚类(将样本分为若干类,如将数据分为 4 个簇)、关联分析(如发现 “购买尿布的人可能购买葡萄酒” 的关联规则)。

五、集成学习

  • 定义:通过构建并结合多个学习器(模型)完成任务。
  • 功能:综合多个模型的优势,降低单一模型的误差或过拟合风险,提升整体性能。

六、模型评估与选择

1. 评估指标
  • 错误率:分类错误的样本数占总样本数的比例(如 100 个样本中错分 10 个,错误率为 10%)。
  • 精度:1 - 错误率(如上述例子的精度为 90%)。
  • 残差:模型预测输出与样本真实输出的差异(如预测房价为 100 万,实际为 95 万,残差为 5 万)。
  • 训练误差(经验误差):模型在训练集上的误差(反映对训练数据的拟合程度)。
  • 泛化误差:模型在新样本(未见过的数据)上的误差(反映模型的推广能力)。
  • 损失函数:衡量预测偏差的函数,值越小说明模型性能越好(如通过拟合直线最小化预测价格与实际价格的差距)。
2. 模型问题
  • 欠拟合

    • 含义:模型未充分捕捉数据特征(如特征不足),导致拟合效果差(如认为 “所有绿色的都是树叶”)。
    • 处理方式:添加新特征、增加模型复杂度、减小正则化系数。
  • 过拟合

    • 含义:模型过度学习训练数据,甚至包含噪声特征,导致泛化能力差(如认为 “树叶必须有锯齿”,无法识别无锯齿的树叶)。
    • 处理方式:增加训练数据、降维(丢弃无用特征)、正则化(减小参数影响)、集成学习。
3. 选择原则
  • 奥卡姆剃刀原理:“如无必要,勿增实体”,即优先选择能解释数据且简单的模型(避免为追求低训练误差而过度复杂化模型)。
  • 没有免费的午餐(NFL):不存在对所有问题都最优的算法,评价算法优劣需结合具体任务。
4. 评估方法
  • 留出法

    • 操作:将数据集划分为互斥的训练集(如 70%)和测试集(如 30%),用训练集建模,测试集评估。
    • 注意:保持数据分布一致(如分类任务用分层采样),多次随机划分以减少偶然性。
  • 交叉验证法(k 折交叉验证)

    • 操作:将数据集分为 k 个相似子集,每次用 k-1 个子集训练,1 个子集测试,重复 k 次后取均值。
    • 优势:充分利用数据,降低评估结果的随机性。
5. 分类评估指标
  • TP(真正例):将正类正确预测为正类(如实际是好瓜,预测为好瓜)。

  • FP(假正例):将反类错误预测为正类(如实际是坏瓜,预测为好瓜)。

  • TN(真反例):将反类正确预测为反类(如实际是坏瓜,预测为坏瓜)。

  • FN(假反例):将正类错误预测为反类(如实际是好瓜,预测为坏瓜)。

  • 查准率(P):预测为正类的样本中,实际为正类的比例,\(P=\frac{TP}{TP+FP}\)(如预测的 “好瓜” 中,真正好瓜的比例)。

  • 查全率(R):实际为正类的样本中,被正确预测的比例,\(R=\frac{TP}{TP+FN}\)(如所有好瓜中,被成功识别的比例)。

  • P-R 图:以查全率为横轴、查准率为纵轴的曲线,用于比较模型性能。若 A 的曲线完全包住 B,则 A 性能优于 B;若曲线交叉,则需结合具体场景判断(如侧重查准率还是查全率)

http://www.dtcms.com/a/331846.html

相关文章:

  • Linux 编译过程中遇到 TMPDIR 空间不足的问题
  • FPGA读取AHT20温湿度模块思路及实现,包含遇到的问题(IIC协议)
  • 举例说明环境变量及 PATH 的作用
  • ODE-by-Matlab-01-人口增长模型
  • Java进阶学习之Stream流的基本概念以及使用技巧
  • 不用编程不用组态,实现各种PLC之间数据通讯的网络结构示意图
  • Cookie、Session、Token详解
  • week1-[分支嵌套]公因数
  • P1281 [CERC1998] 书的复制
  • 跨域及解决方案
  • Product Hunt 每日热榜 | 2025-08-14
  • httpx 设置速率控制 limit 时需要注意 timeout 包含 pool 中等待时间
  • Effective C++ 条款40:明智而审慎地使用多重继承
  • 20道Vue框架相关前端面试题及答案
  • Uniapp 中 uni.request 的二次封装
  • stm32f103rct6开发板引脚图
  • 芯伯乐1MHz高频低功耗运放芯片MCP6001/2/4系列,微安级功耗精密信号处理
  • UML函数原型中stereotype的含义,有啥用?
  • 打靶日常-CSRF
  • 中国车企全球化数字转型标杆案例:SAP系统多项目整合升级实践
  • 考研408《计算机组成原理》复习笔记,第五章(2)——CPU指令执行过程
  • Day 11: 预训练语言模型基础 - 理论精华到实战应用的完整指南
  • k8s+isulad 网络问题
  • 【奔跑吧!Linux 内核(第二版)】第7章:系统调用的概念
  • 基本电子元件:电阻器
  • 读书笔记:《我看见的世界》
  • 日志系统(log4cpp)
  • 主进程如何将客户端连接分配到房间进程
  • Android UI(一)登录注册 - Compose
  • 基于Python和Dify的成本对账系统开发