当前位置：首页 > news >正文

【机器学习深度学习】机器学习核心概念图谱：样本、目标函数、损失函数、特征及训练

news 2025/10/9 19:40:15

目录

一、数据基础

二、模型目标：回归 vs 分类

三、损失与优化（模型学习引擎）

四、模型训练框架

五、名词解析

5.1 数据基础：样本、特征与标签

✅ 样本（Sample）

✅ 特征（Feature）

✅ 标签（Label）

5.2 变量类型：自变量与目标变量

✅ 自变量（Independent Variable）

✅ 目标变量（Dependent Variable / Target Variable）

5.3 训练核心：目标函数与损失函数

✅ 损失函数（Loss Function）

✅ 代价函数（Cost Function）

✅ 目标函数（Target Function）

5.4 训练机制：模型、训练数据与超参数

✅ 模型（Model）

✅ 训练数据（Training Data）

✅ 测试数据（Testing Data）

5.5 正则化与超参数：防止过拟合的关键

✅ 正则化（Regularization）

✅ 学习率（Learning Rate）

✅ Epoch

✅ 超参数（Hyperparameter）

5.6 典型问题类型：回归 vs 分类

✅ 回归问题（Regression）

✅ 线性回归

✅ 分类问题（Classification）

✅ 逻辑回归（Logistic Regression）

六、核心认知总结

知识点概述图谱

—— 样本·特征·损失函数·训练机制深度剖析

一、数据基础

概念	定义	关键特性	经典案例
样本 (Sample)	数据集中的单个实例	特征+标签的完整单元	一套房屋的面积、卧室数、位置和价格
特征 (Feature)	描述样本属性的输入变量	模型预测的原材料	房屋面积、学生学时、像素值
标签 (Label)	样本对应的目标值（监督学习核心）	模型学习的参考答案	房价、垃圾邮件分类、成绩分数
训练数据	用于模型训练的特征-标签对集合	模型学习的“教材”	70%历史房屋数据+真实价格
测试数据	评估模型泛化能力的未见过数据	模型能力的“期末考试”	30%保留房屋数据

💡 数据关系：特征 → 样本 → 标签
例：[面积, 卧室数] → 一套房数据 → 500万元

二、模型目标：回归 vs 分类

任务类型	目标变量	输出形式	代表算法	损失函数
回归问题	连续值	实数	线性回归	均方误差 (MSE)
分类问题	离散类别	概率/类别标签	逻辑回归	交叉熵 (Cross-Entropy)

⚙️ 关键算法解析

线性回归

假设：特征与目标呈线性关系

目标：找到权重𝑤和偏差𝑏使 𝑝𝑟𝑖𝑐𝑒 = 𝑤₁×面积 + 𝑤₂×卧室数 + 𝑏

优化：最小化预测房价与真实房价的差距

逻辑回归

本质：分类算法（非回归！）

核心：Sigmoid函数将线性输出压缩为[0,1]概率

决策：𝑃(垃圾邮件│邮件内容) = 1/(1+𝑒⁻ᶻ)

三、损失与优化（模型学习引擎）

函数类型	计算范围	作用	数学形式示例
损失函数 (Loss)	单个样本	量化单样本预测误差	MSE = (ŷ - y)²
代价函数 (Cost)	全体训练样本	评估模型整体表现	MSE均值 = 1/m·Σ(ŷᵢ-yᵢ)²
目标函数	模型参数空间	损失函数 + 正则化项（优化目标）	MSE + λ·∥𝑤∥² (L2正则化)

🔧 优化工具

学习率 (η)：参数更新步长（η过大→震荡，η过小→收敛慢）

Epoch：完整遍历训练集的次数（1000个样本训练5轮=5000次迭代）

正则化：防止过拟合的惩罚项（L2正则化：λ·Σ𝑤²，压缩权重值）

四、模型训练框架

五、名词解析

5.1 数据基础：样本、特征与标签

✅ 样本（Sample）

定义：数据集中单个数据点，通常由多个特征 + 一个标签组成。
举例：房价预测中，一个样本 = 面积 + 卧室数 + 区域 + 实际房价。

✅ 特征（Feature）

定义：用于描述样本的属性，是模型输入的依据。
举例：图像分类中，特征可以是像素值或边缘纹理。

✅ 标签（Label）

定义：表示样本的目标值，用于监督模型训练。
举例：垃圾邮件识别中，标签是“垃圾邮件”或“正常邮件”。

5.2 变量类型：自变量与目标变量

✅ 自变量（Independent Variable）

定义：模型用于预测的输入变量，也称为“特征”。
举例：学生成绩预测中，学习时间、睡眠时长、家庭背景等。

✅ 目标变量（Dependent Variable / Target Variable）

定义：模型预测的输出结果，通常由标签表示。
举例：预测学生的期末成绩（一个连续数值）。

5.3 训练核心：目标函数与损失函数

✅ 损失函数（Loss Function）

定义：衡量单个样本预测值与真实值的误差。
常见示例：
- 回归任务：均方误差（MSE）
- 分类任务：交叉熵损失（Cross Entropy Loss）

✅ 代价函数（Cost Function）

定义：所有样本损失的平均值，用于衡量整个模型的性能。
区别于损失函数：损失是单样本，代价是整体平均。

✅ 目标函数（Target Function）

定义：训练过程中被优化的函数，通常由损失函数 + 正则化项组成。
目标：最小化该函数，提升模型预测能力。

5.4 训练机制：模型、训练数据与超参数

✅ 模型（Model）

定义：通过机器学习算法学习得到的数学映射，用于预测。
举例：线性回归模型、决策树、神经网络等。

✅ 训练数据（Training Data）

定义：用于学习模型参数的数据集，包含输入特征和目标标签。

✅ 测试数据（Testing Data）

定义：用于评估模型泛化能力的独立数据集，模型未见过。

5.5 正则化与超参数：防止过拟合的关键

✅ 正则化（Regularization）

定义：通过增加惩罚项，防止模型过拟合训练数据。
常见方法：
- L1 正则化：稀疏特征选择
- L2 正则化：限制权重过大，常用于线性/逻辑回归中

【详细定义】

正则化是一种防止模型过拟合（Overfitting）的技术，通过在损失函数中添加惩罚项（penalty term），来约束模型参数的大小或复杂度。

【通俗理解】

想象一下：

你在考试前记住了所有练习题的答案，结果考试换了题你不会了——这就是过拟合。
模型过拟合 = 在训练集上表现很好，在测试集上却很差。
正则化的目的：

让模型**“学规律”而不是“死记训练集”**。

【正则化怎么做？】

我们从损失函数说起：

1、原始损失函数：

2、加了正则化的损失函数：

其中，λ（lambda）是一个超参数，控制正则化的强度。

【常见正则化方式】

✅ 1. L2 正则化（也叫 Ridge 正则）

正则项：所有权重的平方和

效果：鼓励权重变小（但不为0），防止模型复杂。

🔍 举例：

如果你模型中某些特征的权重特别大，L2 正则会惩罚这些大权重，迫使模型“更温和”地学习。

✅ 2. L1 正则化（也叫 Lasso 正则）

正则项：所有权重的绝对值之和

效果：鼓励模型产生稀疏权重，有些权重会直接变成 0。

🔍 举例：

如果有100个特征，其中只有10个有用，L1 正则化可以让模型自动把那90个“没用的特征”权重变成0，相当于自动做特征选择。

【可视化类比】

不加正则化的模型：

像一个自由发挥的学生，把所有训练题都背得滚瓜烂熟；

在考试中遇到新题就“抓瞎”。

加了正则化的模型：

像一个被老师限制不能死记硬背的学生，只能理解知识点、灵活运用；

在考试中能适应新题。

【举个实际例子：线性回归】

原始损失函数：

加了 L2 正则化之后：

加了 L1 正则化之后：

【总结一句话】

正则化就是“给模型戴上安全帽”，防止它在训练中学得太过复杂，以至于考试（测试）时表现不佳。

项目 L1 正则化 L2 正则化
数学形式权重的绝对值之和权重的平方和
主要效果让一些权重变成0（特征选择）让权重更小更平滑
常见应用稀疏模型、特征压缩防止过拟合、提升泛化能力

✅ 学习率（Learning Rate）

定义：每次梯度更新时参数移动的步长，影响收敛速度。
注意：太大会发散，太小则收敛慢。

【通俗理解】

学习率就像是你在黑夜中找路的“步子大小”。

步子太大（学习率太高）：可能错过目标、来回震荡，甚至“摔倒”；

步子太小（学习率太低）：虽然安全但太慢，可能走到一半就停下来了。

【举个例子】

假设你想爬到山顶（最小损失值）：

学习率太大：你每一步跨一公里，很可能一步就越过了山顶，还可能掉下山；

学习率太小：你每次只移动1毫米，虽然稳，但走到山顶要花几百年；

理想学习率：每一步走一米，稳中求进，最终登顶。

【动态学习率（扩展）】

在训练初期用大步快跑，后期逐渐减小步长细调：这叫做学习率衰减，也是一种提升效果的策略。

✅ Epoch

定义：对整个训练数据集完整训练一遍的过程。
举例：1000 个样本，1 个 epoch = 全部样本被“喂”给模型一次。

✅ 超参数（Hyperparameter）

定义：在训练开始前就确定好的参数，不是通过模型学习得到的。它们控制着模型的训练方式和结构。模型结构与训练策略的先验设置，不由训练数据学习得到。
举例：学习率、批量大小（batch size）、隐藏层数量等。

【通俗理解】

训练一个模型就像做饭，模型参数是你炒菜时调的味道，超参数就是你在开火之前准备好的锅、火力、油量等。

你不能炒到一半才换锅，也不能炒完菜后再说“我早该用小火炒”。

【举个例子（神经网络）】

你在训练一个神经网络时，需要提前设定：

网络几层（比如 3 层）

每层多少个神经元（比如 128 个）

用什么激活函数（比如 ReLU）

每次喂多少数据进去（batch size = 32）

每次权重更新多少（学习率 = 0.01）

这些都是超参数，你只能通过试验和经验调出来，不能通过训练自动得出。

【常见超参数有哪些？】

类型超参数示例
训练过程控制学习率（learning rate）、批量大小（batch size）、epoch 数
模型结构网络层数、每层神经元数量、激活函数类型
正则化相关 L1/L2 权重、dropout 比例

【模型参数 vs 超参数的区别总结】

项目模型参数超参数
谁决定的训练算法通过数据学习得到你事先人工设定
举例权重（W）、偏置（b）学习率、网络结构、epoch 数
是否能被训练更新 ✅ 会被训练更新 ❌ 训练前必须先设置

【总结一句话】

学习率是训练中的“步伐大小”，控制学习快慢；
超参数是训练前要设定的“全局设定”，控制模型“怎么学”和“学什么”。

5.6 典型问题类型：回归 vs 分类

✅ 回归问题（Regression）

定义：预测连续数值型目标变量。
例子：
- 预测房价、股票价格、温度。
代表模型：线性回归（Linear Regression）

【一句话理解】

如果你的目标值是个“数”，而不是“标签”或“类别”，那就是回归问题。

【举几个生活中的例子】

场景输入特征（X）预测目标（Y）类型
房价预测面积、卧室数、楼层、地段房子的价格（￥）回归
股票预测开盘价、历史走势、交易量明天的股价（￥）回归
温度预测当前湿度、风速、前几天的温度明天的气温（°C）回归
学生成绩预测平时分、考试成绩、作业完成度最终成绩（百分制）回归

【和分类问题有啥区别？】

对比项回归问题分类问题
输出类型连续数值离散类别（比如男/女、猫/狗）
例子房价预测、成绩预测、气温预测是否患病、是否是猫、邮件是否垃圾
模型输出一个实数一个概率或标签
常用模型线性回归、SVR、XGBoost 逻辑回归、决策树、SVM
损失函数均方误差 MSE 交叉熵 Cross Entropy

【对比理解】
回归任务：输出是连续的线
x轴 = 面积，y轴 = 预测房价
---------------------------------------
面积:      50㎡   80㎡   100㎡   120㎡
预测房价:  200万  300万  400万   500万→ 是一个连续变化的曲线/直线
分类任务：输出是离散点
x轴 = 图像像素，y轴 = 类别标签（0：猫，1：狗）
→ 输出只有0或1（离散）
【常用的回归模型】

✅ 1. 线性回归（Linear Regression）

假设特征和目标之间存在线性关系

比如：

优点：简单，易解释；

缺点：只能拟合线性关系，适合简单场景。

✅ 2. 多项式回归、多元回归

能拟合曲线关系，如 U 形、抛物线等

适用于非线性的数据分布

✅ 3. 其他常见回归方法

SVR（支持向量回归）：SVM 的回归版

XGBoost 回归：基于树的强大集成方法，效果很好

神经网络回归：用于更复杂的数据和非线性关系

【回归任务的评价指标（判断模型好坏）】

指标解释
MSE Mean Squared Error，均方误差（越小越好）
MAE Mean Absolute Error，平均绝对误差
R² 决定系数，衡量拟合优度（越接近 1 越好）

【总结一句话】

回归问题就是：给定一堆输入特征，预测一个“真实世界中的连续值”。

想要知道“值是多少” → 回归；

想要知道“属于哪一类” → 分类。

✅ 线性回归

原理：拟合一条最优直线，使预测值与实际值误差最小。
目标函数：最小化均方误差（MSE）

✅ 分类问题（Classification）

定义：预测离散类别的任务，也就是判断某个样本属于哪个类别（class）。
例子：
- 垃圾邮件识别、图像识别、情感分析。
- 这封邮件是垃圾邮件吗？
- 这张图是猫还是狗？
- 这个用户会不会流失？
代表模型：逻辑回归（Logistic Regression）

【举几个具体例子】

场景输入特征（X）预测目标（Y）类型
垃圾邮件识别邮件内容、关键词、发件人是 or 否（1 or 0）二分类
图像识别图片像素、边缘、颜色特征猫 / 狗 / 鸟多分类
肿瘤良恶性预测年龄、肿瘤大小、病理特征良性 / 恶性二分类
客户是否流失年收入、上网时长、投诉次数流失 or 留存二分类

【分类 vs 回归，傻傻分不清？】

项目回归问题分类问题
输出类型连续数值（例如房价、分数）离散类别（例如猫狗、人群分组）
目标变量可以是任意实数只能是固定的类别集中的一个值
常用模型线性回归、SVR、XGBoost（回归）逻辑回归、决策树、SVM、XGBoost（分类）
输出结果直接给出数值给出类别（或概率）
损失函数均方误差（MSE）、平均绝对误差（MAE）交叉熵（Cross Entropy）

【分类的种类】

1. 二分类（Binary Classification）

只有两个类别

示例：是否患病（是 / 否）、垃圾邮件（是 / 否）

2. 多分类（Multi-class Classification）

超过两个类别

示例：图片是猫 / 狗 / 鸟 / 马

3. 多标签分类（Multi-label Classification）

每个样本可以有多个标签

示例：这张图片中有 “狗” 和 “车” 和 “人”

【最常用的分类模型】

1、逻辑回归（Logistic Regression）★最基础

虽然叫“回归”，但其实用于二分类

用 sigmoid 函数输出一个概率值 0,10, 10,1

决策边界：大于0.5就预测为1类，否则是0类

2、决策树（Decision Tree）

像“二十问”游戏一样不断划分条件

容易理解，结构可视化

3、支持向量机（SVM）

用“最大间隔超平面”划分类别

适合小样本、高维数据

4、神经网络（Neural Network）

多层感知机（MLP）也能用于分类

可处理图像、文本等复杂输入

【分类模型怎么评价好坏？】

常用指标：

指标名称含义
Accuracy 准确率：预测对的样本数量 / 总样本数量
Precision 精确率：预测为正样本中，真正正样本的比例
Recall 召回率：所有正样本中，被正确预测出来的比例
F1-score 综合考虑精确率和召回率的调和平均数
AUC 曲线下面积，衡量分类模型整体表现

【可视化示意图（手绘思维）】

分类问题：离散分类边界
o o o o o ← 类别 A
o o o o o
------------- 决策边界 ----------
x x x x x ← 类别 B
x x x x x

回归问题：连续数值预测
*
* *
* *
* *
→ 输入：面积、卧室数
→ 输出：预测房价（连续数值）

【总结一句话】

分类问题就是：给定一个输入，模型判断它属于哪一类。

类别是离散的；

输出通常是概率分布（然后选概率最大者）；

逻辑回归是最经典的分类起点模型。

【小测一下（判断是分类 or 回归）】

问题类型
根据图像判断是猫还是狗分类
预测明天的气温回归
判断客户是否会流失分类
根据体重、身高预测 BMI 指数回归

✅ 逻辑回归（Logistic Regression）

虽然叫“回归”，但其实用于分类。
核心思想：使用 Sigmoid 函数将输出映射到 [0, 1] 的概率空间。
输出：表示样本属于某类别的概率。

六、核心认知总结

数据是燃料：特征决定信息上限，标签指引学习方向
损失函数是导航仪：误差量化驱动参数调整
正则化是刹车系统：平衡拟合与泛化能力
超参数是控制面板：学习率/epoch/λ需人工调优
训练即分布匹配：寻找 𝑓(𝑥) 逼近真实数据生成规律

🌟 一句话理解训练本质：
“通过反向传播在参数空间中搜索，找到使代价函数最小的权重𝑤和偏差𝑏，让模型预测分布逼近真实数据分布”

“训练模型，就是在寻找一个函数，能够尽可能匹配训练数据的真实分布。”

通俗来说，我们希望模型在见过的数据上学得好，更重要的是在没见过的数据上也表现出色（泛化能力）。

http://www.dtcms.com/a/258741.html

相关文章：

【源码】Reactive 源码

【CS创世SD NAND征文】基于全志V3S与CS创世SD NAND的物联网智能路灯网关数据存储方案

闲庭信步使用SV搭建图像测试平台：第九课——初步使用类

开疆智能CCLinkIE转ModbusTCP网关连接施耐德TCP从站配置案例

NEO4j的安装部署

P0/P1级重大故障根因分析：技术挑战与无指责复盘文化

From Tranformer to Decoder ONLY

SPSS再次使用

Linux零基础快速入门到精通

使用Bash脚本RSA公钥加密算法对密码进行加密解密方法

vscode中vue自定义组件的标签失去特殊颜色高亮

清华大学联合IDEA推出GUAVA：单幅图像生成实时可动画3D上半身，渲染速度突破0.1秒，可实现实时表情与动作同步。

[附源码+数据库+毕业论文]基于Spring+MyBatis+MySQL+Maven+jsp实现的超市库存商品管理系统，推荐！

基于Qt和GDAL的多线程影像重采样工具

QT 学习笔记摘要(一)

电动汽车定速巡航模式控制设计方法

Flask(六) 数据库操作SQLAlchemy

【LUT技术专题】1D和3DLUT的高效组合-SepLUT

Java 线程池技术深度解析与代码实战

Petrel导入well数据

Nginx性能优化配置指南

【C/C++】C++ 编程规范：101条规则准则与最佳实践

[ruby on rails] ActiveJob中 discard_on，retry_on和 rescue_from的应用

Python Polars库详解：高性能数据处理的新标杆

使用markRaw实例化echarts对象

Python中class对象/属性/方法/封装/继承/多态/魔法方法详解

Python案例练习：字典专题（分析文章的文字与次数、设计星座字典、凯撒密码、摩尔斯密码）

利用folium实现全国高校分布地图显示

验证 TCP 连接在异常情况下的断开机制之进程(客户端)被 kill 掉

如何将适用于 Docker 的 ONLYOFFICE 文档更新到 v9.0