当前位置：首页 > news >正文

机器学习初学

news 2025/8/15 12:16:02

一、机器学习的定义

机器学习是一种通过分析大量经验数据，提升特定任务表现的方法。其核心逻辑包括：

针对特定任务（如预测 “好瓜”、围棋对弈等）；
有明确的评判标准（如预测准确率、对弈胜负等）；
通过对经验数据（历史数据）的分析，归纳规律形成模型，从而让任务完成得更好（如 AlphaGo 通过学习大量棋谱提升对弈能力）。

二、机器学习应用领域

文档提到的主要应用领域及其功能如下：

模式识别：识别数据中的模式（如字符、图像中的特征模式），是许多领域的基础。
计算机视觉：让计算机 “看懂” 图像 / 视频（如物体识别、人脸识别）。
数据挖掘：从大量数据中提取隐藏的有用信息（如用户行为规律）。
语音识别：将语音信号转换为文本（如语音助手的语音转文字功能）。
自然语言处理：让计算机理解和处理人类语言（如 Google Translate 的翻译功能）。
统计学习：基于统计学理论，通过数据构建模型并进行预测。

三、机器学习基本术语

数据集：数据记录的集合（如包含 17 条西瓜信息的表格）。
样本：数据集中的每条记录，描述一个事件或对象（如表格中编号为 1 的西瓜信息）。
特征（属性）：反映对象性质的事项（如西瓜的 “色泽”“根蒂”）。
属性空间（样本空间）：由所有属性张成的空间（如 “色泽 + 根蒂 + 敲声” 构成的三维空间）。
向量表示：样本在属性空间中的数值化表达，如样本\(x_i=(x_{i1}, x_{i2}, ..., x_{id})\)（d为属性数量，即维数）。
训练集：用于训练模型的数据集，包含标记信息（如已知 “好瓜” 与否的西瓜数据）。
测试集：用于检验模型性能的数据集，通常标记信息未知（如需要预测 “好瓜” 与否的新西瓜数据）。

四、学习类型

监督学习：
- 定义：使用带 “正确答案”（标记）的样本训练模型，调整参数以优化性能。
- 分类：输出为离散值（如预测 “好瓜” 或 “坏瓜”）。
- 回归：输出为连续值（如预测房屋价格，价格可在一定范围内取任意值）。
无监督学习：
- 定义：仅提供数据，不提供标记信息，模型自主发现数据中的规律。
- 典型任务：聚类（将样本分为若干类，如将数据分为 4 个簇）、关联分析（如发现 “购买尿布的人可能购买葡萄酒” 的关联规则）。

五、集成学习

定义：通过构建并结合多个学习器（模型）完成任务。
功能：综合多个模型的优势，降低单一模型的误差或过拟合风险，提升整体性能。

六、模型评估与选择

1. 评估指标

错误率：分类错误的样本数占总样本数的比例（如 100 个样本中错分 10 个，错误率为 10%）。
精度：1 - 错误率（如上述例子的精度为 90%）。
残差：模型预测输出与样本真实输出的差异（如预测房价为 100 万，实际为 95 万，残差为 5 万）。
训练误差（经验误差）：模型在训练集上的误差（反映对训练数据的拟合程度）。
泛化误差：模型在新样本（未见过的数据）上的误差（反映模型的推广能力）。
损失函数：衡量预测偏差的函数，值越小说明模型性能越好（如通过拟合直线最小化预测价格与实际价格的差距）。

2. 模型问题

欠拟合：
- 含义：模型未充分捕捉数据特征（如特征不足），导致拟合效果差（如认为 “所有绿色的都是树叶”）。
- 处理方式：添加新特征、增加模型复杂度、减小正则化系数。
过拟合：
- 含义：模型过度学习训练数据，甚至包含噪声特征，导致泛化能力差（如认为 “树叶必须有锯齿”，无法识别无锯齿的树叶）。
- 处理方式：增加训练数据、降维（丢弃无用特征）、正则化（减小参数影响）、集成学习。

3. 选择原则

奥卡姆剃刀原理：“如无必要，勿增实体”，即优先选择能解释数据且简单的模型（避免为追求低训练误差而过度复杂化模型）。
没有免费的午餐（NFL）：不存在对所有问题都最优的算法，评价算法优劣需结合具体任务。

4. 评估方法

留出法：
- 操作：将数据集划分为互斥的训练集（如 70%）和测试集（如 30%），用训练集建模，测试集评估。
- 注意：保持数据分布一致（如分类任务用分层采样），多次随机划分以减少偶然性。
交叉验证法（k 折交叉验证）：
- 操作：将数据集分为 k 个相似子集，每次用 k-1 个子集训练，1 个子集测试，重复 k 次后取均值。
- 优势：充分利用数据，降低评估结果的随机性。

5. 分类评估指标

TP（真正例）：将正类正确预测为正类（如实际是好瓜，预测为好瓜）。
FP（假正例）：将反类错误预测为正类（如实际是坏瓜，预测为好瓜）。
TN（真反例）：将反类正确预测为反类（如实际是坏瓜，预测为坏瓜）。
FN（假反例）：将正类错误预测为反类（如实际是好瓜，预测为坏瓜）。
查准率（P）：预测为正类的样本中，实际为正类的比例，\(P=\frac{TP}{TP+FP}\)（如预测的 “好瓜” 中，真正好瓜的比例）。
查全率（R）：实际为正类的样本中，被正确预测的比例，\(R=\frac{TP}{TP+FN}\)（如所有好瓜中，被成功识别的比例）。
P-R 图：以查全率为横轴、查准率为纵轴的曲线，用于比较模型性能。若 A 的曲线完全包住 B，则 A 性能优于 B；若曲线交叉，则需结合具体场景判断（如侧重查准率还是查全率）

http://www.dtcms.com/a/331846.html

相关文章：

Linux 编译过程中遇到 TMPDIR 空间不足的问题

FPGA读取AHT20温湿度模块思路及实现，包含遇到的问题（IIC协议）

举例说明环境变量及 PATH 的作用

ODE-by-Matlab-01-人口增长模型

Java进阶学习之Stream流的基本概念以及使用技巧

不用编程不用组态，实现各种PLC之间数据通讯的网络结构示意图

Cookie、Session、Token详解

week1-[分支嵌套]公因数

P1281 [CERC1998] 书的复制

跨域及解决方案

Product Hunt 每日热榜 | 2025-08-14

httpx 设置速率控制 limit 时需要注意 timeout 包含 pool 中等待时间

Effective C++ 条款40：明智而审慎地使用多重继承

20道Vue框架相关前端面试题及答案

Uniapp 中 uni.request 的二次封装

stm32f103rct6开发板引脚图

芯伯乐1MHz高频低功耗运放芯片MCP6001/2/4系列，微安级功耗精密信号处理

UML函数原型中stereotype的含义，有啥用？

打靶日常-CSRF

中国车企全球化数字转型标杆案例：SAP系统多项目整合升级实践

考研408《计算机组成原理》复习笔记，第五章(2)——CPU指令执行过程

Day 11: 预训练语言模型基础 - 理论精华到实战应用的完整指南

k8s+isulad 网络问题

【奔跑吧！Linux 内核（第二版）】第7章：系统调用的概念

基本电子元件：电阻器

读书笔记：《我看见的世界》

日志系统(log4cpp)

主进程如何将客户端连接分配到房间进程

Android UI（一）登录注册 - Compose

基于Python和Dify的成本对账系统开发