【机器学习深度学习】机器学习核心概念图谱:样本、目标函数、损失函数、特征及训练
目录
一、数据基础
二、模型目标:回归 vs 分类
三、损失与优化(模型学习引擎)
四、模型训练框架
五、名词解析
5.1 数据基础:样本、特征与标签
✅ 样本(Sample)
✅ 特征(Feature)
✅ 标签(Label)
5.2 变量类型:自变量与目标变量
✅ 自变量(Independent Variable)
✅ 目标变量(Dependent Variable / Target Variable)
5.3 训练核心:目标函数与损失函数
✅ 损失函数(Loss Function)
✅ 代价函数(Cost Function)
✅ 目标函数(Target Function)
5.4 训练机制:模型、训练数据与超参数
✅ 模型(Model)
✅ 训练数据(Training Data)
✅ 测试数据(Testing Data)
5.5 正则化与超参数:防止过拟合的关键
✅ 正则化(Regularization)
✅ 学习率(Learning Rate)
✅ Epoch
✅ 超参数(Hyperparameter)
5.6 典型问题类型:回归 vs 分类
✅ 回归问题(Regression)
✅ 线性回归
✅ 分类问题(Classification)
✅ 逻辑回归(Logistic Regression)
六、核心认知总结
知识点概述图谱
—— 样本·特征·损失函数·训练机制深度剖析
一、数据基础
概念 | 定义 | 关键特性 | 经典案例 |
---|---|---|---|
样本 (Sample) | 数据集中的单个实例 | 特征+标签的完整单元 | 一套房屋的面积、卧室数、位置和价格 |
特征 (Feature) | 描述样本属性的输入变量 | 模型预测的原材料 | 房屋面积、学生学时、像素值 |
标签 (Label) | 样本对应的目标值(监督学习核心) | 模型学习的参考答案 | 房价、垃圾邮件分类、成绩分数 |
训练数据 | 用于模型训练的特征-标签对集合 | 模型学习的“教材” | 70%历史房屋数据+真实价格 |
测试数据 | 评估模型泛化能力的未见过数据 | 模型能力的“期末考试” | 30%保留房屋数据 |
💡 数据关系:
特征
→样本
→标签
例:[面积, 卧室数]
→一套房数据
→500万元
二、模型目标:回归 vs 分类
任务类型 | 目标变量 | 输出形式 | 代表算法 | 损失函数 |
---|---|---|---|---|
回归问题 | 连续值 | 实数 | 线性回归 | 均方误差 (MSE) |
分类问题 | 离散类别 | 概率/类别标签 | 逻辑回归 | 交叉熵 (Cross-Entropy) |
⚙️ 关键算法解析
线性回归
假设:特征与目标呈线性关系
目标:找到权重𝑤和偏差𝑏使 𝑝𝑟𝑖𝑐𝑒 = 𝑤₁×面积 + 𝑤₂×卧室数 + 𝑏
优化:最小化预测房价与真实房价的差距
逻辑回归
本质:分类算法(非回归!)
核心:Sigmoid函数将线性输出压缩为[0,1]概率
决策:𝑃(垃圾邮件│邮件内容) = 1/(1+𝑒⁻ᶻ)
三、损失与优化(模型学习引擎)
函数类型 | 计算范围 | 作用 | 数学形式示例 |
---|---|---|---|
损失函数 (Loss) | 单个样本 | 量化单样本预测误差 | MSE = (ŷ - y)² |
代价函数 (Cost) | 全体训练样本 | 评估模型整体表现 | MSE均值 = 1/m·Σ(ŷᵢ-yᵢ)² |
目标函数 | 模型参数空间 | 损失函数 + 正则化项(优化目标) | MSE + λ·∥𝑤∥² (L2正则化) |
🔧 优化工具
学习率 (η):参数更新步长(η过大→震荡,η过小→收敛慢)
Epoch:完整遍历训练集的次数(1000个样本训练5轮=5000次迭代)
正则化:防止过拟合的惩罚项(L2正则化:λ·Σ𝑤²,压缩权重值)
四、模型训练框架
五、名词解析
5.1 数据基础:样本、特征与标签
✅ 样本(Sample)
-
定义:数据集中单个数据点,通常由多个特征 + 一个标签组成。
-
举例:房价预测中,一个样本 = 面积 + 卧室数 + 区域 + 实际房价。
✅ 特征(Feature)
-
定义:用于描述样本的属性,是模型输入的依据。
-
举例:图像分类中,特征可以是像素值或边缘纹理。
✅ 标签(Label)
-
定义:表示样本的目标值,用于监督模型训练。
-
举例:垃圾邮件识别中,标签是“垃圾邮件”或“正常邮件”。
5.2 变量类型:自变量与目标变量
✅ 自变量(Independent Variable)
-
定义:模型用于预测的输入变量,也称为“特征”。
-
举例:学生成绩预测中,学习时间、睡眠时长、家庭背景等。
✅ 目标变量(Dependent Variable / Target Variable)
-
定义:模型预测的输出结果,通常由标签表示。
-
举例:预测学生的期末成绩(一个连续数值)。
5.3 训练核心:目标函数与损失函数
✅ 损失函数(Loss Function)
-
定义:衡量单个样本预测值与真实值的误差。
-
常见示例:
-
回归任务:均方误差(MSE)
-
分类任务:交叉熵损失(Cross Entropy Loss)
-
✅ 代价函数(Cost Function)
-
定义:所有样本损失的平均值,用于衡量整个模型的性能。
-
区别于损失函数:损失是单样本,代价是整体平均。
✅ 目标函数(Target Function)
-
定义:训练过程中被优化的函数,通常由损失函数 + 正则化项组成。
-
目标:最小化该函数,提升模型预测能力。
5.4 训练机制:模型、训练数据与超参数
✅ 模型(Model)
-
定义:通过机器学习算法学习得到的数学映射,用于预测。
-
举例:线性回归模型、决策树、神经网络等。
✅ 训练数据(Training Data)
-
定义:用于学习模型参数的数据集,包含输入特征和目标标签。
✅ 测试数据(Testing Data)
-
定义:用于评估模型泛化能力的独立数据集,模型未见过。
5.5 正则化与超参数:防止过拟合的关键
✅ 正则化(Regularization)
-
定义:通过增加惩罚项,防止模型过拟合训练数据。
-
常见方法:
-
L1 正则化:稀疏特征选择
-
L2 正则化:限制权重过大,常用于线性/逻辑回归中
-
【详细定义】
正则化是一种防止模型过拟合(Overfitting)的技术,通过在损失函数中添加惩罚项(penalty term),来约束模型参数的大小或复杂度。
【通俗理解】
想象一下:
你在考试前记住了所有练习题的答案,结果考试换了题你不会了——这就是过拟合。
模型过拟合 = 在训练集上表现很好,在测试集上却很差。
正则化的目的:
让模型**“学规律”而不是“死记训练集”**。
【正则化怎么做?】
我们从损失函数说起:
1、原始损失函数:
2、加了正则化的损失函数:
其中,λ(lambda)是一个超参数,控制正则化的强度。
【常见正则化方式】
✅ 1. L2 正则化(也叫 Ridge 正则)
正则项:所有权重的平方和
效果:鼓励权重变小(但不为0),防止模型复杂。
🔍 举例:
如果你模型中某些特征的权重特别大,L2 正则会惩罚这些大权重,迫使模型“更温和”地学习。
✅ 2. L1 正则化(也叫 Lasso 正则)
正则项:所有权重的绝对值之和
效果:鼓励模型产生稀疏权重,有些权重会直接变成 0。
🔍 举例:
如果有100个特征,其中只有10个有用,L1 正则化可以让模型自动把那90个“没用的特征”权重变成0,相当于自动做特征选择。
【可视化类比】
不加正则化的模型:
像一个自由发挥的学生,把所有训练题都背得滚瓜烂熟;
在考试中遇到新题就“抓瞎”。
加了正则化的模型:
像一个被老师限制不能死记硬背的学生,只能理解知识点、灵活运用;
在考试中能适应新题。
【举个实际例子:线性回归】
原始损失函数:
加了 L2 正则化之后:
加了 L1 正则化之后:
【总结一句话】
正则化就是“给模型戴上安全帽”,防止它在训练中学得太过复杂,以至于考试(测试)时表现不佳。
项目 L1 正则化 L2 正则化 数学形式 权重的绝对值之和 权重的平方和 主要效果 让一些权重变成0(特征选择) 让权重更小更平滑 常见应用 稀疏模型、特征压缩 防止过拟合、提升泛化能力
✅ 学习率(Learning Rate)
-
定义:每次梯度更新时参数移动的步长,影响收敛速度。
-
注意:太大会发散,太小则收敛慢。
【通俗理解】
学习率就像是你在黑夜中找路的“步子大小”。
步子太大(学习率太高):可能错过目标、来回震荡,甚至“摔倒”;
步子太小(学习率太低):虽然安全但太慢,可能走到一半就停下来了。
【举个例子】
假设你想爬到山顶(最小损失值):
学习率太大:你每一步跨一公里,很可能一步就越过了山顶,还可能掉下山;
学习率太小:你每次只移动1毫米,虽然稳,但走到山顶要花几百年;
理想学习率:每一步走一米,稳中求进,最终登顶。
【动态学习率(扩展)】
在训练初期用大步快跑,后期逐渐减小步长细调:这叫做学习率衰减,也是一种提升效果的策略。
✅ Epoch
-
定义:对整个训练数据集完整训练一遍的过程。
-
举例:1000 个样本,1 个 epoch = 全部样本被“喂”给模型一次。
✅ 超参数(Hyperparameter)
-
定义:在训练开始前就确定好的参数,不是通过模型学习得到的。它们控制着模型的训练方式和结构。模型结构与训练策略的先验设置,不由训练数据学习得到。
-
举例:学习率、批量大小(batch size)、隐藏层数量等。
【通俗理解】
训练一个模型就像做饭,模型参数是你炒菜时调的味道,超参数就是你在开火之前准备好的锅、火力、油量等。
你不能炒到一半才换锅,也不能炒完菜后再说“我早该用小火炒”。
【举个例子(神经网络)】
你在训练一个神经网络时,需要提前设定:
网络几层(比如 3 层)
每层多少个神经元(比如 128 个)
用什么激活函数(比如 ReLU)
每次喂多少数据进去(batch size = 32)
每次权重更新多少(学习率 = 0.01)
这些都是超参数,你只能通过试验和经验调出来,不能通过训练自动得出。
【常见超参数有哪些?】
类型 超参数示例 训练过程控制 学习率(learning rate)、批量大小(batch size)、epoch 数 模型结构 网络层数、每层神经元数量、激活函数类型 正则化相关 L1/L2 权重、dropout 比例
【模型参数 vs 超参数 的区别总结】
项目 模型参数 超参数 谁决定的 训练算法通过数据学习得到 你事先人工设定 举例 权重(W)、偏置(b) 学习率、网络结构、epoch 数 是否能被训练更新 ✅ 会被训练更新 ❌ 训练前必须先设置
【总结一句话】
学习率是训练中的“步伐大小”,控制学习快慢;
超参数是训练前要设定的“全局设定”,控制模型“怎么学”和“学什么”。
5.6 典型问题类型:回归 vs 分类
✅ 回归问题(Regression)
-
定义:预测连续数值型目标变量。
-
例子:
-
预测房价、股票价格、温度。
-
-
代表模型:线性回归(Linear Regression)
【一句话理解】
如果你的目标值是个“数”,而不是“标签”或“类别”,那就是回归问题。
【举几个生活中的例子】
场景 输入特征(X) 预测目标(Y) 类型 房价预测 面积、卧室数、楼层、地段 房子的价格(¥) 回归 股票预测 开盘价、历史走势、交易量 明天的股价(¥) 回归 温度预测 当前湿度、风速、前几天的温度 明天的气温(°C) 回归 学生成绩预测 平时分、考试成绩、作业完成度 最终成绩(百分制) 回归
【和分类问题有啥区别?】
对比项 回归问题 分类问题 输出类型 连续数值 离散类别(比如男/女、猫/狗) 例子 房价预测、成绩预测、气温预测 是否患病、是否是猫、邮件是否垃圾 模型输出 一个实数 一个概率或标签 常用模型 线性回归、SVR、XGBoost 逻辑回归、决策树、SVM 损失函数 均方误差 MSE 交叉熵 Cross Entropy
【对比理解】
回归任务:输出是连续的线 x轴 = 面积,y轴 = 预测房价 --------------------------------------- 面积: 50㎡ 80㎡ 100㎡ 120㎡ 预测房价: 200万 300万 400万 500万→ 是一个连续变化的曲线/直线
分类任务:输出是离散点 x轴 = 图像像素,y轴 = 类别标签(0:猫,1:狗) → 输出只有0或1(离散)
【常用的回归模型】
✅ 1. 线性回归(Linear Regression)
假设特征和目标之间存在线性关系
比如:
优点:简单,易解释;
缺点:只能拟合线性关系,适合简单场景。
✅ 2. 多项式回归、多元回归
能拟合曲线关系,如 U 形、抛物线等
适用于非线性的数据分布
✅ 3. 其他常见回归方法
SVR(支持向量回归):SVM 的回归版
XGBoost 回归:基于树的强大集成方法,效果很好
神经网络回归:用于更复杂的数据和非线性关系
【回归任务的评价指标(判断模型好坏)】
指标 解释 MSE Mean Squared Error,均方误差(越小越好) MAE Mean Absolute Error,平均绝对误差 R² 决定系数,衡量拟合优度(越接近 1 越好)
【总结一句话】
回归问题就是:给定一堆输入特征,预测一个“真实世界中的连续值”。
想要知道“值是多少” → 回归;
想要知道“属于哪一类” → 分类。
✅ 线性回归
-
原理:拟合一条最优直线,使预测值与实际值误差最小。
-
目标函数:最小化均方误差(MSE)
✅ 分类问题(Classification)
-
定义:预测离散类别的任务,也就是判断某个样本属于哪个类别(class)。
-
例子:
-
垃圾邮件识别、图像识别、情感分析。
-
这封邮件是垃圾邮件吗?
-
这张图是猫还是狗?
-
这个用户会不会流失?
-
-
代表模型:逻辑回归(Logistic Regression)
【举几个具体例子】
场景 输入特征(X) 预测目标(Y) 类型 垃圾邮件识别 邮件内容、关键词、发件人 是 or 否(1 or 0) 二分类 图像识别 图片像素、边缘、颜色特征 猫 / 狗 / 鸟 多分类 肿瘤良恶性预测 年龄、肿瘤大小、病理特征 良性 / 恶性 二分类 客户是否流失 年收入、上网时长、投诉次数 流失 or 留存 二分类
【分类 vs 回归,傻傻分不清?】
项目 回归问题 分类问题 输出类型 连续数值(例如房价、分数) 离散类别(例如猫狗、人群分组) 目标变量 可以是任意实数 只能是固定的类别集中的一个值 常用模型 线性回归、SVR、XGBoost(回归) 逻辑回归、决策树、SVM、XGBoost(分类) 输出结果 直接给出数值 给出类别(或概率) 损失函数 均方误差(MSE)、平均绝对误差(MAE) 交叉熵(Cross Entropy)
【分类的种类】
1. 二分类(Binary Classification)
只有两个类别
示例:是否患病(是 / 否)、垃圾邮件(是 / 否)
2. 多分类(Multi-class Classification)
超过两个类别
示例:图片是猫 / 狗 / 鸟 / 马
3. 多标签分类(Multi-label Classification)
每个样本可以有多个标签
示例:这张图片中有 “狗” 和 “车” 和 “人”
【最常用的分类模型】
1、逻辑回归(Logistic Regression)★最基础
虽然叫“回归”,但其实用于二分类
用 sigmoid 函数输出一个概率值 0,10, 10,1
决策边界:大于0.5就预测为1类,否则是0类
2、决策树(Decision Tree)
像“二十问”游戏一样不断划分条件
容易理解,结构可视化
3、支持向量机(SVM)
用“最大间隔超平面”划分类别
适合小样本、高维数据
4、神经网络(Neural Network)
多层感知机(MLP)也能用于分类
可处理图像、文本等复杂输入
【分类模型怎么评价好坏?】
常用指标:
指标名称 含义 Accuracy 准确率:预测对的样本数量 / 总样本数量 Precision 精确率:预测为正样本中,真正正样本的比例 Recall 召回率:所有正样本中,被正确预测出来的比例 F1-score 综合考虑精确率和召回率的调和平均数 AUC 曲线下面积,衡量分类模型整体表现
【可视化示意图(手绘思维)】
分类问题:离散分类边界
o o o o o ← 类别 A
o o o o o
------------- 决策边界 ----------
x x x x x ← 类别 B
x x x x x回归问题:连续数值预测
*
* *
* *
* *
→ 输入:面积、卧室数
→ 输出:预测房价(连续数值)
【总结一句话】
分类问题就是:给定一个输入,模型判断它属于哪一类。
类别是离散的;
输出通常是概率分布(然后选概率最大者);
逻辑回归是最经典的分类起点模型。
【小测一下(判断是分类 or 回归)】
问题 类型 根据图像判断是猫还是狗 分类 预测明天的气温 回归 判断客户是否会流失 分类 根据体重、身高预测 BMI 指数 回归
✅ 逻辑回归(Logistic Regression)
-
虽然叫“回归”,但其实用于分类。
-
核心思想:使用 Sigmoid 函数将输出映射到 [0, 1] 的概率空间。
-
输出:表示样本属于某类别的概率。
六、核心认知总结
-
数据是燃料:特征决定信息上限,标签指引学习方向
-
损失函数是导航仪:误差量化驱动参数调整
-
正则化是刹车系统:平衡拟合与泛化能力
-
超参数是控制面板:学习率/epoch/λ需人工调优
-
训练即分布匹配:寻找 𝑓(𝑥) 逼近真实数据生成规律
🌟 一句话理解训练本质:
“通过反向传播在参数空间中搜索,找到使代价函数最小的权重𝑤和偏差𝑏,让模型预测分布逼近真实数据分布”
“训练模型,就是在寻找一个函数,能够尽可能匹配训练数据的真实分布。”
通俗来说,我们希望模型在见过的数据上学得好,更重要的是在没见过的数据上也表现出色(泛化能力)。