机器学习初学
一、机器学习的定义
机器学习是一种通过分析大量经验数据,提升特定任务表现的方法。其核心逻辑包括:
- 针对特定任务(如预测 “好瓜”、围棋对弈等);
- 有明确的评判标准(如预测准确率、对弈胜负等);
- 通过对经验数据(历史数据)的分析,归纳规律形成模型,从而让任务完成得更好(如 AlphaGo 通过学习大量棋谱提升对弈能力)。
二、机器学习应用领域
文档提到的主要应用领域及其功能如下:
- 模式识别:识别数据中的模式(如字符、图像中的特征模式),是许多领域的基础。
- 计算机视觉:让计算机 “看懂” 图像 / 视频(如物体识别、人脸识别)。
- 数据挖掘:从大量数据中提取隐藏的有用信息(如用户行为规律)。
- 语音识别:将语音信号转换为文本(如语音助手的语音转文字功能)。
- 自然语言处理:让计算机理解和处理人类语言(如 Google Translate 的翻译功能)。
- 统计学习:基于统计学理论,通过数据构建模型并进行预测。
三、机器学习基本术语
- 数据集:数据记录的集合(如包含 17 条西瓜信息的表格)。
- 样本:数据集中的每条记录,描述一个事件或对象(如表格中编号为 1 的西瓜信息)。
- 特征(属性):反映对象性质的事项(如西瓜的 “色泽”“根蒂”)。
- 属性空间(样本空间):由所有属性张成的空间(如 “色泽 + 根蒂 + 敲声” 构成的三维空间)。
- 向量表示:样本在属性空间中的数值化表达,如样本\(x_i=(x_{i1}, x_{i2}, ..., x_{id})\)(d为属性数量,即维数)。
- 训练集:用于训练模型的数据集,包含标记信息(如已知 “好瓜” 与否的西瓜数据)。
- 测试集:用于检验模型性能的数据集,通常标记信息未知(如需要预测 “好瓜” 与否的新西瓜数据)。
四、学习类型
监督学习:
- 定义:使用带 “正确答案”(标记)的样本训练模型,调整参数以优化性能。
- 分类:输出为离散值(如预测 “好瓜” 或 “坏瓜”)。
- 回归:输出为连续值(如预测房屋价格,价格可在一定范围内取任意值)。
无监督学习:
- 定义:仅提供数据,不提供标记信息,模型自主发现数据中的规律。
- 典型任务:聚类(将样本分为若干类,如将数据分为 4 个簇)、关联分析(如发现 “购买尿布的人可能购买葡萄酒” 的关联规则)。
五、集成学习
- 定义:通过构建并结合多个学习器(模型)完成任务。
- 功能:综合多个模型的优势,降低单一模型的误差或过拟合风险,提升整体性能。
六、模型评估与选择
1. 评估指标
- 错误率:分类错误的样本数占总样本数的比例(如 100 个样本中错分 10 个,错误率为 10%)。
- 精度:1 - 错误率(如上述例子的精度为 90%)。
- 残差:模型预测输出与样本真实输出的差异(如预测房价为 100 万,实际为 95 万,残差为 5 万)。
- 训练误差(经验误差):模型在训练集上的误差(反映对训练数据的拟合程度)。
- 泛化误差:模型在新样本(未见过的数据)上的误差(反映模型的推广能力)。
- 损失函数:衡量预测偏差的函数,值越小说明模型性能越好(如通过拟合直线最小化预测价格与实际价格的差距)。
2. 模型问题
欠拟合:
- 含义:模型未充分捕捉数据特征(如特征不足),导致拟合效果差(如认为 “所有绿色的都是树叶”)。
- 处理方式:添加新特征、增加模型复杂度、减小正则化系数。
过拟合:
- 含义:模型过度学习训练数据,甚至包含噪声特征,导致泛化能力差(如认为 “树叶必须有锯齿”,无法识别无锯齿的树叶)。
- 处理方式:增加训练数据、降维(丢弃无用特征)、正则化(减小参数影响)、集成学习。
3. 选择原则
- 奥卡姆剃刀原理:“如无必要,勿增实体”,即优先选择能解释数据且简单的模型(避免为追求低训练误差而过度复杂化模型)。
- 没有免费的午餐(NFL):不存在对所有问题都最优的算法,评价算法优劣需结合具体任务。
4. 评估方法
留出法:
- 操作:将数据集划分为互斥的训练集(如 70%)和测试集(如 30%),用训练集建模,测试集评估。
- 注意:保持数据分布一致(如分类任务用分层采样),多次随机划分以减少偶然性。
交叉验证法(k 折交叉验证):
- 操作:将数据集分为 k 个相似子集,每次用 k-1 个子集训练,1 个子集测试,重复 k 次后取均值。
- 优势:充分利用数据,降低评估结果的随机性。
5. 分类评估指标
TP(真正例):将正类正确预测为正类(如实际是好瓜,预测为好瓜)。
FP(假正例):将反类错误预测为正类(如实际是坏瓜,预测为好瓜)。
TN(真反例):将反类正确预测为反类(如实际是坏瓜,预测为坏瓜)。
FN(假反例):将正类错误预测为反类(如实际是好瓜,预测为坏瓜)。
查准率(P):预测为正类的样本中,实际为正类的比例,\(P=\frac{TP}{TP+FP}\)(如预测的 “好瓜” 中,真正好瓜的比例)。
查全率(R):实际为正类的样本中,被正确预测的比例,\(R=\frac{TP}{TP+FN}\)(如所有好瓜中,被成功识别的比例)。
P-R 图:以查全率为横轴、查准率为纵轴的曲线,用于比较模型性能。若 A 的曲线完全包住 B,则 A 性能优于 B;若曲线交叉,则需结合具体场景判断(如侧重查准率还是查全率)