第4讲 机器学习基础概念
机器学习作为人工智能的子领域,专注于训练计算机算法自动发现数据中的模式与关联关系。以下是其核心基础概念:
4.1 数据
数据是机器学习的基石。缺乏数据,算法将无从学习。数据可呈现为结构化数据(如电子表格、数据库)和非结构化数据(如文本、图像)等形式。训练数据的质量与数量对算法性能具有决定性影响。
4.2 特征
特征是描述输入数据的变量或属性。关键在于选择最具相关性和信息量的特征,以确保算法做出准确预测或决策。特征选择是机器学习流程中的核心环节,算法性能很大程度上取决于特征的质量与相关性。
4.3 模型
机器学习模型是输入数据(特征)与输出(预测或决策)之间关系的数学表征。模型通过训练数据集构建,并经由独立验证数据集评估,其核心目标是能够准确泛化至未知的新数据。
4.4 训练
训练是教导算法进行准确预测的过程。通过提供大规模数据集,使算法学习数据中的模式与关联。在此过程中,算法通过调整内部参数来缩小预测输出与实际结果之间的差距。
4.5 测试
测试用于评估算法在未知数据集上的性能表现,旨在验证其泛化能力。若在测试集上表现良好,则表明模型构建成功。
4.6 过拟合
当模型过于复杂且过度贴合训练数据时会出现过拟合。这将导致模型在未知数据上表现不佳,因其过度特化于训练集。为防止过拟合,需采用验证集评估性能,并运用正则化技术简化模型。
4.7 欠拟合
当模型过于简单无法捕捉数据中的模式时会产生欠拟合。这将导致训练集和测试集上的双重表现不佳。改进技术包括增加模型复杂度、收集更多数据、降低正则化强度以及特征工程。
需注意,预防欠拟合需要在模型复杂度与数据量之间寻求平衡。增加模型复杂度可缓解欠拟合,但若数据量不足,反而可能引发过拟合。因此必须持续监控模型性能并动态调整复杂度。
4.8 机器学习的需求场景
除已知需求外,还需明确何时需要让机器进行学习。以下场景中采用机器学习尤为高效:
(1)人类专家缺失
在缺乏人类专业知识的领域(例如未知领域或外星探测导航),需依靠机器进行数据驱动决策。
(2)动态环境
对于网络连接、基础设施可用性等持续变化的场景,需要机器通过自主学习适应动态变化。
(3)难以转化为计算任务
在语音识别、认知任务等人类具备专业知识但无法转化为计算任务的领域,机器学习成为必然选择。
4.9 机器学习模型定义
参考Mitchell教授的形式化定义:
"若计算机程序在任务T上的性能指标P随着经验E积累而提升,则称该程序具有学习能力。"
该定义聚焦三个核心参数(也是学习算法的主要构成):
(1)任务(T)
(2)性能(P)
(3)经验(E)
可简化为:机器学习是由学习算法构成的AI领域,这些算法能够:
• 在特定任务(T)上
• 随着经验(E)积累
• 持续提升性能(P)
基于此定义,下图展示了机器学习模型的基本框架:
机器学习核心三要素详解
以下我们对任务(T)、经验(E)和性能(P)进行深入解析:
(1)任务(T)
从问题视角看,任务T可定义为待解决的实际问题,例如预测某地最优房价或制定最佳营销策略等。然而在机器学习范畴中,任务的定义具有特殊性——因其往往无法通过传统编程方法解决。
当任务需要基于特定流程处理数据点且系统必须遵循该流程时,即可称为机器学习任务。典型类型包括:
1)分类(Classification)
2)回归(Regression)
3)结构化标注(Structured annotation)
4)聚类(Clustering)
5)转录(Transcription)
(2)经验(E)
指算法或模型从数据点中获取的知识。给定数据集后,模型通过迭代运行学习内在规律,由此获得的知识即为经验(E)。类比人类学习:如同人们从情境、关联等多元属性中汲取经验,机器学习亦通过监督学习、无监督学习和强化学习等方式积累经验。这些经验将用于解决任务T。
(3)性能(P)
机器学习算法随时间推移执行任务并积累经验,其表现是否符合预期需要通过性能(P)来衡量。P是量化指标,用于评估模型如何运用经验(E)完成任务(T)。常用评估指标包括:
1)准确率(Accuracy score)
2)F1分数(F1 score)
3)混淆矩阵(Confusion matrix)
4)精确率(Precision)
5)召回率(Recall)
6)敏感度(Sensitivity)