当前位置: 首页 > news >正文

第4讲 机器学习基础概念

机器学习作为人工智能的子领域,专注于训练计算机算法自动发现数据中的模式与关联关系。以下是其核心基础概念:

4.1 数据

数据是机器学习的基石。缺乏数据,算法将无从学习。数据可呈现为结构化数据(如电子表格、数据库)和非结构化数据(如文本、图像)等形式。训练数据的质量与数量对算法性能具有决定性影响。

4.2 特征

特征是描述输入数据的变量或属性。关键在于选择最具相关性和信息量的特征,以确保算法做出准确预测或决策。特征选择是机器学习流程中的核心环节,算法性能很大程度上取决于特征的质量与相关性。

4.3 模型

机器学习模型是输入数据(特征)与输出(预测或决策)之间关系的数学表征。模型通过训练数据集构建,并经由独立验证数据集评估,其核心目标是能够准确泛化至未知的新数据。

4.4 训练

训练是教导算法进行准确预测的过程。通过提供大规模数据集,使算法学习数据中的模式与关联。在此过程中,算法通过调整内部参数来缩小预测输出与实际结果之间的差距。

4.5 测试

测试用于评估算法在未知数据集上的性能表现,旨在验证其泛化能力。若在测试集上表现良好,则表明模型构建成功。

4.6 过拟合

当模型过于复杂且过度贴合训练数据时会出现过拟合。这将导致模型在未知数据上表现不佳,因其过度特化于训练集。为防止过拟合,需采用验证集评估性能,并运用正则化技术简化模型。

4.7 欠拟合

当模型过于简单无法捕捉数据中的模式时会产生欠拟合。这将导致训练集和测试集上的双重表现不佳。改进技术包括增加模型复杂度、收集更多数据、降低正则化强度以及特征工程。

需注意,预防欠拟合需要在模型复杂度与数据量之间寻求平衡。增加模型复杂度可缓解欠拟合,但若数据量不足,反而可能引发过拟合。因此必须持续监控模型性能并动态调整复杂度。

4.8 机器学习的需求场景

除已知需求外,还需明确何时需要让机器进行学习。以下场景中采用机器学习尤为高效:

(1)人类专家缺失

在缺乏人类专业知识的领域(例如未知领域或外星探测导航),需依靠机器进行数据驱动决策。

(2)动态环境

对于网络连接、基础设施可用性等持续变化的场景,需要机器通过自主学习适应动态变化。

(3)难以转化为计算任务

在语音识别、认知任务等人类具备专业知识但无法转化为计算任务的领域,机器学习成为必然选择。

4.9 机器学习模型定义

参考Mitchell教授的形式化定义:

"若计算机程序在任务T上的性能指标P随着经验E积累而提升,则称该程序具有学习能力。"

该定义聚焦三个核心参数(也是学习算法的主要构成):

(1)任务(T)

(2)性能(P)

(3)经验(E)

可简化为:机器学习是由学习算法构成的AI领域,这些算法能够:

• 在特定任务(T)上

• 随着经验(E)积累

• 持续提升性能(P)

基于此定义,下图展示了机器学习模型的基本框架:

  

机器学习核心三要素详解

以下我们对任务(T)、经验(E)和性能(P)进行深入解析:

(1)任务(T)

从问题视角看,任务T可定义为待解决的实际问题,例如预测某地最优房价或制定最佳营销策略等。然而在机器学习范畴中,任务的定义具有特殊性——因其往往无法通过传统编程方法解决。

当任务需要基于特定流程处理数据点且系统必须遵循该流程时,即可称为机器学习任务。典型类型包括:

1)分类(Classification)

2)回归(Regression)

3)结构化标注(Structured annotation)

4)聚类(Clustering)

5)转录(Transcription)

(2)经验(E)

指算法或模型从数据点中获取的知识。给定数据集后,模型通过迭代运行学习内在规律,由此获得的知识即为经验(E)。类比人类学习:如同人们从情境、关联等多元属性中汲取经验,机器学习亦通过监督学习、无监督学习和强化学习等方式积累经验。这些经验将用于解决任务T。

(3)性能(P)

机器学习算法随时间推移执行任务并积累经验,其表现是否符合预期需要通过性能(P)来衡量。P是量化指标,用于评估模型如何运用经验(E)完成任务(T)。常用评估指标包括:

1)准确率(Accuracy score)

2)F1分数(F1 score)

3)混淆矩阵(Confusion matrix)

4)精确率(Precision)

5)召回率(Recall)

6)敏感度(Sensitivity)


文章转载自:

http://CeyQEbFH.qxkjy.cn
http://IIH6b8oo.qxkjy.cn
http://uatA4qwa.qxkjy.cn
http://0r863zAE.qxkjy.cn
http://nfluVu1b.qxkjy.cn
http://rHKAL0t4.qxkjy.cn
http://mWRHEpCF.qxkjy.cn
http://JuQx2YZx.qxkjy.cn
http://KRxoa20B.qxkjy.cn
http://lDkRjsZN.qxkjy.cn
http://HEB8xZqR.qxkjy.cn
http://BeEghI6b.qxkjy.cn
http://jchLfrCM.qxkjy.cn
http://7FW1R8K8.qxkjy.cn
http://j9NvNVuU.qxkjy.cn
http://le8bGxak.qxkjy.cn
http://j5uAYO9m.qxkjy.cn
http://I0lOwSVv.qxkjy.cn
http://Ygoz1a1X.qxkjy.cn
http://WjwuNP0Q.qxkjy.cn
http://SwASSWmr.qxkjy.cn
http://1IRrC9ZJ.qxkjy.cn
http://AkwmBcCA.qxkjy.cn
http://m43lDodS.qxkjy.cn
http://miametfZ.qxkjy.cn
http://T7PEMAGW.qxkjy.cn
http://V3W79cx3.qxkjy.cn
http://OWkJeopl.qxkjy.cn
http://XimTDoQ1.qxkjy.cn
http://XT6dhurr.qxkjy.cn
http://www.dtcms.com/a/376183.html

相关文章:

  • 新加坡服务器连接速度变慢应该做哪些检查
  • Elasticsearch启动失败?5步修复权限问题
  • HR软件选型指南:SaaS还是本地部署好?
  • 基于51单片机简易计算器仿真设计(proteus仿真+程序+嘉立创原理图PCB+设计报告)
  • matlab基本操作和矩阵输入-台大郭彦甫视频
  • Power BI制作指标达成跟踪器
  • 邪修实战系列(3)
  • Mac m系列芯片向日葵打不开 解决方案
  • 【Unity Shader学习笔记】(七)顶点着色器
  • 宋红康 JVM 笔记 Day16|垃圾回收相关概念
  • 信号与系统
  • 第十四届蓝桥杯青少组C++选拔赛[2023.2.12]第二部分编程题(5、机甲战士)
  • NW597NW605美光固态闪存NW613NW614
  • C语言-指针用法概述
  • Jakarta EE课程 微型资料投递与分发 实验指导(付完整版代码)
  • 基于autoawq进行qwen3 的awq量化
  • ⸢ 肆 ⸥ ⤳ 默认安全建设方案:c-2.增量风险管控
  • Windows系统下KingbaseES数据库保姆级安装教程(附常见问题解决)
  • Python实现讯飞星火大模型Spark4.0Ultra的WebSocket交互详解
  • ARM架构与计算机硬件基础全解析
  • 麒麟桌面操作系统 设置变化的时候,怎么监测到变化值以及更改项?
  • Reactor模式
  • Java-Spring入门指南(五)Spring自动装配
  • 必知必会:词向量构建方法(Word2Vec、ELMo、BERT)、聚类性质的句子向量构建方法(SBERT、SimCSE )
  • 查找算法(Java)
  • 计算机视觉----opencv高级操作(上采样,下采样,拉普拉斯金字塔,图像数值的统计)
  • 【华为OD】阿里巴巴找黄金宝箱
  • DDR SDRAM要点总结
  • unity以战斗截图并加上微信二维码分享
  • Scikit-learn Python机器学习 - 分类算法 - K-近邻(KNN)算法