当前位置: 首页 > news >正文

【机器学习深度学习】机器学习核心概念图谱:样本、目标函数、损失函数、特征及训练

目录

一、数据基础

二、模型目标:回归 vs 分类

三、损失与优化(模型学习引擎)

四、模型训练框架

五、名词解析

5.1 数据基础:样本、特征与标签

✅ 样本(Sample)

✅ 特征(Feature)

✅ 标签(Label)

5.2 变量类型:自变量与目标变量

✅ 自变量(Independent Variable)

✅ 目标变量(Dependent Variable / Target Variable)

5.3 训练核心:目标函数与损失函数

✅ 损失函数(Loss Function)

✅ 代价函数(Cost Function)

✅ 目标函数(Target Function)

5.4 训练机制:模型、训练数据与超参数

✅ 模型(Model)

✅ 训练数据(Training Data)

✅ 测试数据(Testing Data)

5.5 正则化与超参数:防止过拟合的关键

✅ 正则化(Regularization)

✅ 学习率(Learning Rate)

✅ Epoch

✅ 超参数(Hyperparameter)

5.6 典型问题类型:回归 vs 分类

✅ 回归问题(Regression)

✅ 线性回归

✅ 分类问题(Classification)

✅ 逻辑回归(Logistic Regression)

六、核心认知总结


知识点概述图谱

—— 样本·特征·损失函数·训练机制深度剖析

一、数据基础

概念定义关键特性经典案例
样本 (Sample)数据集中的单个实例特征+标签的完整单元一套房屋的面积、卧室数、位置和价格
特征 (Feature)描述样本属性的输入变量模型预测的原材料房屋面积、学生学时、像素值
标签 (Label)样本对应的目标值(监督学习核心)模型学习的参考答案房价、垃圾邮件分类、成绩分数
训练数据用于模型训练的特征-标签对集合模型学习的“教材”70%历史房屋数据+真实价格
测试数据评估模型泛化能力的未见过数据模型能力的“期末考试”30%保留房屋数据

💡 数据关系特征 → 样本 → 标签
例:[面积, 卧室数] → 一套房数据 → 500万元


二、模型目标:回归 vs 分类

任务类型目标变量输出形式代表算法损失函数
回归问题连续值实数线性回归均方误差 (MSE)
分类问题离散类别概率/类别标签逻辑回归交叉熵 (Cross-Entropy)

⚙️ 关键算法解析

  1. 线性回归

    • 假设:特征与目标呈线性关系

    • 目标:找到权重𝑤和偏差𝑏使 𝑝𝑟𝑖𝑐𝑒 = 𝑤₁×面积 + 𝑤₂×卧室数 + 𝑏

    • 优化:最小化预测房价与真实房价的差距

  2. 逻辑回归

    • 本质:分类算法(非回归!)

    • 核心:Sigmoid函数将线性输出压缩为[0,1]概率

    • 决策:𝑃(垃圾邮件│邮件内容) = 1/(1+𝑒⁻ᶻ)


三、损失与优化(模型学习引擎)

函数类型计算范围作用数学形式示例
损失函数 (Loss)单个样本量化单样本预测误差MSE = (ŷ - y)²
代价函数 (Cost)全体训练样本评估模型整体表现MSE均值 = 1/m·Σ(ŷᵢ-yᵢ)²
目标函数模型参数空间损失函数 + 正则化项(优化目标)MSE + λ·∥𝑤∥² (L2正则化)

🔧 优化工具

  • 学习率 (η):参数更新步长(η过大→震荡,η过小→收敛慢)

  • Epoch:完整遍历训练集的次数(1000个样本训练5轮=5000次迭代)

  • 正则化:防止过拟合的惩罚项(L2正则化:λ·Σ𝑤²,压缩权重值)


四、模型训练框架


 五、名词解析

5.1 数据基础:样本、特征与标签
✅ 样本(Sample)
  • 定义:数据集中单个数据点,通常由多个特征 + 一个标签组成。

  • 举例:房价预测中,一个样本 = 面积 + 卧室数 + 区域 + 实际房价。

✅ 特征(Feature)
  • 定义:用于描述样本的属性,是模型输入的依据。

  • 举例:图像分类中,特征可以是像素值或边缘纹理。

✅ 标签(Label)
  • 定义:表示样本的目标值,用于监督模型训练。

  • 举例:垃圾邮件识别中,标签是“垃圾邮件”或“正常邮件”。


5.2 变量类型:自变量与目标变量
✅ 自变量(Independent Variable)
  • 定义:模型用于预测的输入变量,也称为“特征”。

  • 举例:学生成绩预测中,学习时间、睡眠时长、家庭背景等。

✅ 目标变量(Dependent Variable / Target Variable)
  • 定义:模型预测的输出结果,通常由标签表示。

  • 举例:预测学生的期末成绩(一个连续数值)。


5.3 训练核心:目标函数与损失函数
✅ 损失函数(Loss Function)
  • 定义:衡量单个样本预测值与真实值的误差。

  • 常见示例

    • 回归任务:均方误差(MSE)

    • 分类任务:交叉熵损失(Cross Entropy Loss)

✅ 代价函数(Cost Function)
  • 定义:所有样本损失的平均值,用于衡量整个模型的性能。

  • 区别于损失函数:损失是单样本,代价是整体平均。

✅ 目标函数(Target Function)
  • 定义:训练过程中被优化的函数,通常由损失函数 + 正则化项组成。

  • 目标:最小化该函数,提升模型预测能力。


5.4 训练机制:模型、训练数据与超参数
✅ 模型(Model)
  • 定义:通过机器学习算法学习得到的数学映射,用于预测。

  • 举例:线性回归模型、决策树、神经网络等。

✅ 训练数据(Training Data)
  • 定义:用于学习模型参数的数据集,包含输入特征和目标标签。

✅ 测试数据(Testing Data)
  • 定义:用于评估模型泛化能力的独立数据集,模型未见过。


5.5 正则化与超参数:防止过拟合的关键
✅ 正则化(Regularization)
  • 定义:通过增加惩罚项,防止模型过拟合训练数据。

  • 常见方法

    • L1 正则化:稀疏特征选择

    • L2 正则化:限制权重过大,常用于线性/逻辑回归中

【详细定义】

正则化是一种防止模型过拟合(Overfitting)的技术,通过在损失函数中添加惩罚项(penalty term),来约束模型参数的大小或复杂度。


【通俗理解】

想象一下:

你在考试前记住了所有练习题的答案,结果考试换了题你不会了——这就是过拟合

模型过拟合 = 在训练集上表现很好,在测试集上却很差。

正则化的目的:

让模型**“学规律”而不是“死记训练集”**。


【正则化怎么做?】

我们从损失函数说起:

1、原始损失函数:

2、加了正则化的损失函数:

其中,λ(lambda)是一个超参数,控制正则化的强度。


【常见正则化方式】

✅ 1. L2 正则化(也叫 Ridge 正则)

  • 正则项:所有权重的平方和

                        

  • 效果:鼓励权重变小(但不为0),防止模型复杂。

🔍 举例:

如果你模型中某些特征的权重特别大,L2 正则会惩罚这些大权重,迫使模型“更温和”地学习。

✅ 2. L1 正则化(也叫 Lasso 正则)

  • 正则项:所有权重的绝对值之和

                        

  • 效果:鼓励模型产生稀疏权重,有些权重会直接变成 0。

🔍 举例:

如果有100个特征,其中只有10个有用,L1 正则化可以让模型自动把那90个“没用的特征”权重变成0,相当于自动做特征选择。


【可视化类比】

不加正则化的模型:

  • 像一个自由发挥的学生,把所有训练题都背得滚瓜烂熟;

  • 在考试中遇到新题就“抓瞎”。

加了正则化的模型:

  • 像一个被老师限制不能死记硬背的学生,只能理解知识点、灵活运用;

  • 在考试中能适应新题。


【举个实际例子:线性回归】

原始损失函数:

加了 L2 正则化之后:

加了 L1 正则化之后:


【总结一句话】

正则化就是“给模型戴上安全帽”,防止它在训练中学得太过复杂,以至于考试(测试)时表现不佳。

项目L1 正则化L2 正则化
数学形式权重的绝对值之和权重的平方和
主要效果让一些权重变成0(特征选择)让权重更小更平滑
常见应用稀疏模型、特征压缩防止过拟合、提升泛化能力
✅ 学习率(Learning Rate)
  • 定义:每次梯度更新时参数移动的步长,影响收敛速度。

  • 注意:太大会发散,太小则收敛慢。

【通俗理解】

学习率就像是你在黑夜中找路的“步子大小”。

  • 步子太大(学习率太高):可能错过目标、来回震荡,甚至“摔倒”;

  • 步子太小(学习率太低):虽然安全但太慢,可能走到一半就停下来了。


【举个例子】

假设你想爬到山顶(最小损失值):

  • 学习率太大:你每一步跨一公里,很可能一步就越过了山顶,还可能掉下山;

  • 学习率太小:你每次只移动1毫米,虽然稳,但走到山顶要花几百年;

  • 理想学习率:每一步走一米,稳中求进,最终登顶。


【动态学习率(扩展)】

在训练初期用大步快跑,后期逐渐减小步长细调:这叫做学习率衰减,也是一种提升效果的策略。

✅ Epoch
  • 定义:对整个训练数据集完整训练一遍的过程。

  • 举例:1000 个样本,1 个 epoch = 全部样本被“喂”给模型一次。

✅ 超参数(Hyperparameter)
  • 定义在训练开始前就确定好的参数不是通过模型学习得到的。它们控制着模型的训练方式和结构。模型结构与训练策略的先验设置,不由训练数据学习得到。

  • 举例:学习率、批量大小(batch size)、隐藏层数量等。

【通俗理解】

训练一个模型就像做饭,模型参数是你炒菜时调的味道超参数就是你在开火之前准备好的锅、火力、油量等

你不能炒到一半才换锅,也不能炒完菜后再说“我早该用小火炒”。


【举个例子(神经网络)】

你在训练一个神经网络时,需要提前设定:

  • 网络几层(比如 3 层)

  • 每层多少个神经元(比如 128 个)

  • 用什么激活函数(比如 ReLU)

  • 每次喂多少数据进去(batch size = 32)

  • 每次权重更新多少(学习率 = 0.01)

这些都是超参数,你只能通过试验和经验调出来,不能通过训练自动得出。


【常见超参数有哪些?】

类型超参数示例
训练过程控制学习率(learning rate)、批量大小(batch size)、epoch 数
模型结构网络层数、每层神经元数量、激活函数类型
正则化相关L1/L2 权重、dropout 比例

【模型参数 vs 超参数 的区别总结】

项目模型参数超参数
谁决定的训练算法通过数据学习得到你事先人工设定
举例权重(W)、偏置(b)学习率、网络结构、epoch 数
是否能被训练更新✅ 会被训练更新❌ 训练前必须先设置

【总结一句话】

学习率是训练中的“步伐大小”,控制学习快慢;
超参数是训练前要设定的“全局设定”,控制模型“怎么学”和“学什么”。


5.6 典型问题类型:回归 vs 分类
✅ 回归问题(Regression)
  • 定义:预测连续数值型目标变量。

  • 例子

    • 预测房价、股票价格、温度。

  • 代表模型:线性回归(Linear Regression)

【一句话理解】

如果你的目标值是个“数”,而不是“标签”或“类别”,那就是回归问题。


【举几个生活中的例子】

场景输入特征(X)预测目标(Y)类型
房价预测面积、卧室数、楼层、地段房子的价格(¥)回归
股票预测开盘价、历史走势、交易量明天的股价(¥)回归
温度预测当前湿度、风速、前几天的温度明天的气温(°C)回归
学生成绩预测平时分、考试成绩、作业完成度最终成绩(百分制)回归

【和分类问题有啥区别?】

对比项回归问题分类问题
输出类型连续数值离散类别(比如男/女、猫/狗)
例子房价预测、成绩预测、气温预测是否患病、是否是猫、邮件是否垃圾
模型输出一个实数一个概率或标签
常用模型线性回归、SVR、XGBoost逻辑回归、决策树、SVM
损失函数均方误差 MSE交叉熵 Cross Entropy

【对比理解】

回归任务:输出是连续的线
x轴 = 面积,y轴 = 预测房价
---------------------------------------
面积:      50㎡   80㎡   100㎡   120㎡
预测房价:  200万  300万  400万   500万→ 是一个连续变化的曲线/直线
分类任务:输出是离散点
x轴 = 图像像素,y轴 = 类别标签(0:猫,1:狗)
→ 输出只有0或1(离散)

【常用的回归模型】

✅ 1. 线性回归(Linear Regression)

  • 假设特征和目标之间存在线性关系

  • 比如:

                

   

  • 优点:简单,易解释;

  • 缺点:只能拟合线性关系,适合简单场景。

✅ 2. 多项式回归、多元回归

  • 能拟合曲线关系,如 U 形、抛物线等

  • 适用于非线性的数据分布

✅ 3. 其他常见回归方法

  • SVR(支持向量回归):SVM 的回归版

  • XGBoost 回归:基于树的强大集成方法,效果很好

  • 神经网络回归:用于更复杂的数据和非线性关系


【回归任务的评价指标(判断模型好坏)】

指标解释
MSEMean Squared Error,均方误差(越小越好)
MAEMean Absolute Error,平均绝对误差
决定系数,衡量拟合优度(越接近 1 越好)

【总结一句话】

回归问题就是:给定一堆输入特征,预测一个“真实世界中的连续值”。

  • 想要知道“值是多少” → 回归;

  • 想要知道“属于哪一类” → 分类。

✅ 线性回归
  • 原理:拟合一条最优直线,使预测值与实际值误差最小。

  • 目标函数:最小化均方误差(MSE)

✅ 分类问题(Classification)
  • 定义:预测离散类别的任务,也就是判断某个样本属于哪个类别(class)

  • 例子

    • 垃圾邮件识别、图像识别、情感分析。

    • 这封邮件是垃圾邮件吗?

    • 这张图是猫还是狗?

    • 这个用户会不会流失?

  • 代表模型:逻辑回归(Logistic Regression)

【举几个具体例子】

场景输入特征(X)预测目标(Y)类型
垃圾邮件识别邮件内容、关键词、发件人是 or 否(1 or 0)二分类
图像识别图片像素、边缘、颜色特征猫 / 狗 / 鸟多分类
肿瘤良恶性预测年龄、肿瘤大小、病理特征良性 / 恶性二分类
客户是否流失年收入、上网时长、投诉次数流失 or 留存二分类

【分类 vs 回归,傻傻分不清?】

项目回归问题分类问题
输出类型连续数值(例如房价、分数)离散类别(例如猫狗、人群分组)
目标变量可以是任意实数只能是固定的类别集中的一个值
常用模型线性回归、SVR、XGBoost(回归)逻辑回归、决策树、SVM、XGBoost(分类)
输出结果直接给出数值给出类别(或概率)
损失函数均方误差(MSE)、平均绝对误差(MAE)交叉熵(Cross Entropy)

【分类的种类】

1. 二分类(Binary Classification)

  • 只有两个类别

  • 示例:是否患病(是 / 否)、垃圾邮件(是 / 否)

2. 多分类(Multi-class Classification)

  • 超过两个类别

  • 示例:图片是猫 / 狗 / 鸟 / 马

3. 多标签分类(Multi-label Classification)

  • 每个样本可以有多个标签

  • 示例:这张图片中有 “狗” 和 “车” 和 “人”


【最常用的分类模型】

1、逻辑回归(Logistic Regression)★最基础

  • 虽然叫“回归”,但其实用于二分类

  • 用 sigmoid 函数输出一个概率值 0,10, 10,1

  • 决策边界:大于0.5就预测为1类,否则是0类

2、决策树(Decision Tree)

  • 像“二十问”游戏一样不断划分条件

  • 容易理解,结构可视化

3、支持向量机(SVM)

  • 用“最大间隔超平面”划分类别

  • 适合小样本、高维数据

4、神经网络(Neural Network)

  • 多层感知机(MLP)也能用于分类

  • 可处理图像、文本等复杂输入


【分类模型怎么评价好坏?】

常用指标:

指标名称含义
Accuracy准确率:预测对的样本数量 / 总样本数量
Precision精确率:预测为正样本中,真正正样本的比例
Recall召回率:所有正样本中,被正确预测出来的比例
F1-score综合考虑精确率和召回率的调和平均数
AUC曲线下面积,衡量分类模型整体表现

【可视化示意图(手绘思维)】

分类问题:离散分类边界
                    o o o o o    ← 类别 A
                    o o o o o
      ------------- 决策边界 ----------
                    x x x x x    ← 类别 B
                    x x x x x

回归问题:连续数值预测
       *
     *   *
   *       *
 *           *
→ 输入:面积、卧室数
→ 输出:预测房价(连续数值)


【总结一句话】

分类问题就是:给定一个输入,模型判断它属于哪一类。

  • 类别是离散的;

  • 输出通常是概率分布(然后选概率最大者);

  • 逻辑回归是最经典的分类起点模型。


【小测一下(判断是分类 or 回归)】

问题类型
根据图像判断是猫还是狗分类
预测明天的气温回归
判断客户是否会流失分类
根据体重、身高预测 BMI 指数回归
✅ 逻辑回归(Logistic Regression)
  • 虽然叫“回归”,但其实用于分类。

  • 核心思想:使用 Sigmoid 函数将输出映射到 [0, 1] 的概率空间。

  • 输出:表示样本属于某类别的概率。


六、核心认知总结

  1. 数据是燃料:特征决定信息上限,标签指引学习方向

  2. 损失函数是导航仪:误差量化驱动参数调整

  3. 正则化是刹车系统:平衡拟合与泛化能力

  4. 超参数是控制面板:学习率/epoch/λ需人工调优

  5. 训练即分布匹配:寻找 𝑓(𝑥) 逼近真实数据生成规律

🌟 一句话理解训练本质
“通过反向传播在参数空间中搜索,找到使代价函数最小的权重𝑤和偏差𝑏,让模型预测分布逼近真实数据分布”

“训练模型,就是在寻找一个函数,能够尽可能匹配训练数据的真实分布。”

通俗来说,我们希望模型在见过的数据上学得好,更重要的是在没见过的数据上也表现出色(泛化能力)

 

相关文章:

  • 网站建设选择什么模式电商网站销售数据分析
  • 网站建设吗google play下载官方版
  • 网站建设 开发工具 python韶关新闻最新今日头条
  • 合肥 网站建设公司哪家好win7优化大师官网
  • 网站多语言建设seo关键词排名优化系统源码
  • 免费做二建题的网站百度一下知道官网
  • 【源码】Reactive 源码
  • 【CS创世SD NAND征文】基于全志V3S与CS创世SD NAND的物联网智能路灯网关数据存储方案
  • 闲庭信步使用SV搭建图像测试平台:第九课——初步使用类
  • 开疆智能CCLinkIE转ModbusTCP网关连接施耐德TCP从站配置案例
  • NEO4j的安装部署
  • P0/P1级重大故障根因分析:技术挑战与无指责复盘文化
  • From Tranformer to Decoder ONLY
  • SPSS再次使用
  • Linux零基础快速入门到精通
  • 使用Bash脚本RSA公钥加密算法对密码进行加密解密方法
  • vscode中vue自定义组件的标签失去特殊颜色高亮
  • 清华大学联合IDEA推出GUAVA:单幅图像生成实时可动画3D上半身,渲染速度突破0.1秒,可实现实时表情与动作同步。
  • [附源码+数据库+毕业论文]基于Spring+MyBatis+MySQL+Maven+jsp实现的超市库存商品管理系统,推荐!
  • 基于Qt和GDAL的多线程影像重采样工具
  • QT 学习笔记摘要(一)
  • 电动汽车定速巡航模式控制设计方法
  • Flask(六) 数据库操作SQLAlchemy
  • 【LUT技术专题】1D和3DLUT的高效组合-SepLUT
  • Java 线程池技术深度解析与代码实战
  • Petrel导入well数据