当前位置：首页 > news >正文

第4讲机器学习基础概念

news 2025/9/11 5:24:46

机器学习作为人工智能的子领域，专注于训练计算机算法自动发现数据中的模式与关联关系。以下是其核心基础概念：

4.1 数据

数据是机器学习的基石。缺乏数据，算法将无从学习。数据可呈现为结构化数据（如电子表格、数据库）和非结构化数据（如文本、图像）等形式。训练数据的质量与数量对算法性能具有决定性影响。

4.2 特征

特征是描述输入数据的变量或属性。关键在于选择最具相关性和信息量的特征，以确保算法做出准确预测或决策。特征选择是机器学习流程中的核心环节，算法性能很大程度上取决于特征的质量与相关性。

4.3 模型

机器学习模型是输入数据（特征）与输出（预测或决策）之间关系的数学表征。模型通过训练数据集构建，并经由独立验证数据集评估，其核心目标是能够准确泛化至未知的新数据。

4.4 训练

训练是教导算法进行准确预测的过程。通过提供大规模数据集，使算法学习数据中的模式与关联。在此过程中，算法通过调整内部参数来缩小预测输出与实际结果之间的差距。

4.5 测试

测试用于评估算法在未知数据集上的性能表现，旨在验证其泛化能力。若在测试集上表现良好，则表明模型构建成功。

4.6 过拟合

当模型过于复杂且过度贴合训练数据时会出现过拟合。这将导致模型在未知数据上表现不佳，因其过度特化于训练集。为防止过拟合，需采用验证集评估性能，并运用正则化技术简化模型。

4.7 欠拟合

当模型过于简单无法捕捉数据中的模式时会产生欠拟合。这将导致训练集和测试集上的双重表现不佳。改进技术包括增加模型复杂度、收集更多数据、降低正则化强度以及特征工程。

需注意，预防欠拟合需要在模型复杂度与数据量之间寻求平衡。增加模型复杂度可缓解欠拟合，但若数据量不足，反而可能引发过拟合。因此必须持续监控模型性能并动态调整复杂度。

4.8 机器学习的需求场景

除已知需求外，还需明确何时需要让机器进行学习。以下场景中采用机器学习尤为高效：

（1）人类专家缺失

在缺乏人类专业知识的领域（例如未知领域或外星探测导航），需依靠机器进行数据驱动决策。

（2）动态环境

对于网络连接、基础设施可用性等持续变化的场景，需要机器通过自主学习适应动态变化。

（3）难以转化为计算任务

在语音识别、认知任务等人类具备专业知识但无法转化为计算任务的领域，机器学习成为必然选择。

4.9 机器学习模型定义

参考Mitchell教授的形式化定义：

"若计算机程序在任务T上的性能指标P随着经验E积累而提升，则称该程序具有学习能力。"

该定义聚焦三个核心参数（也是学习算法的主要构成）：

（1）任务(T)

（2）性能(P)

（3）经验(E)

可简化为：机器学习是由学习算法构成的AI领域，这些算法能够：

• 在特定任务(T)上

• 随着经验(E)积累

• 持续提升性能(P)

基于此定义，下图展示了机器学习模型的基本框架：

机器学习核心三要素详解

以下我们对任务(T)、经验(E)和性能(P)进行深入解析：

（1）任务(T)

从问题视角看，任务T可定义为待解决的实际问题，例如预测某地最优房价或制定最佳营销策略等。然而在机器学习范畴中，任务的定义具有特殊性——因其往往无法通过传统编程方法解决。

当任务需要基于特定流程处理数据点且系统必须遵循该流程时，即可称为机器学习任务。典型类型包括：

1）分类（Classification）

2）回归（Regression）

3）结构化标注（Structured annotation）

4）聚类（Clustering）

5）转录（Transcription）

（2）经验(E)

指算法或模型从数据点中获取的知识。给定数据集后，模型通过迭代运行学习内在规律，由此获得的知识即为经验(E)。类比人类学习：如同人们从情境、关联等多元属性中汲取经验，机器学习亦通过监督学习、无监督学习和强化学习等方式积累经验。这些经验将用于解决任务T。

（3）性能(P)

机器学习算法随时间推移执行任务并积累经验，其表现是否符合预期需要通过性能(P)来衡量。P是量化指标，用于评估模型如何运用经验(E)完成任务(T)。常用评估指标包括：

1）准确率（Accuracy score）

2）F1分数（F1 score）

3）混淆矩阵（Confusion matrix）

4）精确率（Precision）

5）召回率（Recall）

6）敏感度（Sensitivity）

文章转载自：

http://CeyQEbFH.qxkjy.cn
http://IIH6b8oo.qxkjy.cn
http://uatA4qwa.qxkjy.cn
http://0r863zAE.qxkjy.cn
http://nfluVu1b.qxkjy.cn
http://rHKAL0t4.qxkjy.cn
http://mWRHEpCF.qxkjy.cn
http://JuQx2YZx.qxkjy.cn
http://KRxoa20B.qxkjy.cn
http://lDkRjsZN.qxkjy.cn
http://HEB8xZqR.qxkjy.cn
http://BeEghI6b.qxkjy.cn
http://jchLfrCM.qxkjy.cn
http://7FW1R8K8.qxkjy.cn
http://j9NvNVuU.qxkjy.cn
http://le8bGxak.qxkjy.cn
http://j5uAYO9m.qxkjy.cn
http://I0lOwSVv.qxkjy.cn
http://Ygoz1a1X.qxkjy.cn
http://WjwuNP0Q.qxkjy.cn
http://SwASSWmr.qxkjy.cn
http://1IRrC9ZJ.qxkjy.cn
http://AkwmBcCA.qxkjy.cn
http://m43lDodS.qxkjy.cn
http://miametfZ.qxkjy.cn
http://T7PEMAGW.qxkjy.cn
http://V3W79cx3.qxkjy.cn
http://OWkJeopl.qxkjy.cn
http://XimTDoQ1.qxkjy.cn
http://XT6dhurr.qxkjy.cn

查看全文

http://www.dtcms.com/a/376183.html

新加坡服务器连接速度变慢应该做哪些检查

Elasticsearch启动失败？5步修复权限问题

HR软件选型指南：SaaS还是本地部署好？

基于51单片机简易计算器仿真设计（proteus仿真+程序+嘉立创原理图PCB+设计报告）

matlab基本操作和矩阵输入-台大郭彦甫视频

Power BI制作指标达成跟踪器

邪修实战系列（3）

Mac m系列芯片向日葵打不开解决方案

【Unity Shader学习笔记】（七）顶点着色器

宋红康 JVM 笔记 Day16｜垃圾回收相关概念

信号与系统

第十四届蓝桥杯青少组C++选拔赛[2023.2.12]第二部分编程题（5、机甲战士）

NW597NW605美光固态闪存NW613NW614

C语言-指针用法概述

Jakarta EE课程微型资料投递与分发实验指导（付完整版代码）

基于autoawq进行qwen3 的awq量化

⸢ 肆 ⸥ ⤳ 默认安全建设方案：c-2.增量风险管控

Windows系统下KingbaseES数据库保姆级安装教程（附常见问题解决）

Python实现讯飞星火大模型Spark4.0Ultra的WebSocket交互详解

ARM架构与计算机硬件基础全解析

麒麟桌面操作系统设置变化的时候，怎么监测到变化值以及更改项？

Reactor模式

Java-Spring入门指南（五）Spring自动装配

必知必会：词向量构建方法(Word2Vec、ELMo、BERT)、聚类性质的句子向量构建方法(SBERT、SimCSE )

查找算法（Java)

计算机视觉----opencv高级操作（上采样，下采样，拉普拉斯金字塔，图像数值的统计）

【华为OD】阿里巴巴找黄金宝箱

DDR SDRAM要点总结

unity以战斗截图并加上微信二维码分享

Scikit-learn Python机器学习 - 分类算法 - K-近邻(KNN)算法