当前位置: 首页 > news >正文

Day19_【机器学习—线性回归 (2)】

三、损失函数简介

        线性回归的目标是找到一条最佳拟合直线,而“最佳”是由损失函数定义的,优化过程就是最小化这个损失函数。

        损失函数:衡量真实值与预测值之间差异的函数,也叫代价函数、成本函数、目标函数

四、损失函数的数学表达方式

1.最小二乘法

  • yi​:第 i 个样本的真实值
  • y^i:模型预测值
  • n:样本数量

 2.均方误差MSE

  • n:样本数量
  • yi:第 i 个样本的真实值
  • y^i​:模型对第 i 个样本的预测值
  • (yi−y^i):预测误差(残差)

3.平均绝对误差MAE

4.MSE vs MAE 简单对比

特性MSEMAE
是否放大异常值影响✅ 是(平方)❌ 否(绝对值)
是否可导处处✅ 是(光滑)❌ 否(在0处不可导)
单位目标值的平方与目标值相同
优化倾向避免大错误平均小误差

五、最小化损失函数的方法

1.递归下降法(重点)

1.1.核心思想

梯度

  • 单变量函数中,梯度就是某一点切线斜率(某一点的导数);有方向为函数增长最快的方向
  • 多变量函数中,梯度就是某一个点的偏导数;有方向:偏导数分量的向量方向

梯度下降

        是一种通过沿损失函数“最陡下降方向”迭代更新参数,以找到最小值的优化算法。

1.2.数学表达式

梯度下降公式:  

注意 :

1. α: 学习率(步长) ,步长决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度

  • 学习率太小,下降的速度会慢
  • 学习率太大:容易造成错过最低点、产生下降过程中的震荡、甚至梯度爆炸.
  • 范围:0.001 ~ 0.01

2. 梯度的方向

  • 实际就是函数在此点上升最快的方向, 我们需要是下降最快的方向, 所以需要加负号

3.梯度下降的优化过程

  • 两次差距小于指定的阈值
  • 达到指定的迭代次数
1.3.梯度下降分类

目前最常用的是小批量梯度下降(mini-batch),它结合了SGD的高效和FGD的稳定性,避免了两者的缺点,在实际应用中表现出色。

1.3.1 全梯度下降(F GD)
  • 特点:使用全部数据集进行训练。
  • 优点
    • 训练过程稳定,收敛到全局最优解的可能性大。
  • 缺点
    • 计算速度较慢,尤其是在数据量大的情况下。
    • 内存占用高,需要存储所有样本的梯度。
1.3.2 随机梯度下降(SGD)
  • 特点:每次只使用一个样本进行迭代更新。
  • 优点
    • 简单高效,计算速度快。
    • 可以在大数据集上实时更新模型参数。
  • 缺点
    • 收敛过程不稳定,容易受到噪声影响。
    • 容易陷入局部最优解,特别是在遇到异常值时。
1.3.3 小批量梯度下降(mini-batch)
  • 特点:结合了SGD的高效和FGD的稳定性,每次使用一小部分样本进行迭代。
  • 优点
    • 避免了FGD运算效率低和SGD收敛效果不稳定的缺点。
    • 平衡了计算速度和收敛稳定性,是目前最常用的梯度下降方法。
  • 应用
    • 广泛应用于深度学习和大规模机器学习任务中。
1.3.4 随机平均梯度下降(SAG)
  • 特点:每轮梯度更新都结合了上一轮的梯度值。
  • 优点
    • 利用历史梯度信息,优化速度较快。
  • 缺点
    • 训练初期表现不佳,优化速度较慢,因为初始梯度常设为0。
    • 内存需求较高,需要存储每个样本的历史梯度。

2.正规方程法(了解)

正规方程法的核心思想:利用数学求导+解方程,直接“算出”最优参数。

3.二种方法对比

http://www.dtcms.com/a/360641.html

相关文章:

  • 【大模型记忆-Mem0详解-1】概述
  • springboot整合minio实现上传下载搭建minio
  • 【CVPR24-工业异常检测】InCTRL:少样本基于上下文残差学习的通才异常检测
  • 安装pthread man手册
  • 决策思维研究体系主要构成
  • B 站 “成分” 检测工具,深挖历史记录,秒测二次元浓度
  • OWASP Top 10漏洞详解
  • MCP(Model Context Protocol,模型上下文协议)介绍
  • 图像质量评价——结构相似度
  • CVPR上的多模态检索+视频理解,LLM助力提效翻倍
  • 基于Basilisk库实现三种姿态的切换
  • 雪花算法是什么,时钟回拨问题怎么解决?
  • 大厂文章学习《DDD在大众点评交易系统演进中的应用》
  • 【数据分享】安徽省四份土地利用矢量shp数据
  • C++ 数据结构之哈希表及其相关容器
  • LeetCode 3459.最长 V 形对角线段的长度:记忆化搜索——就一步步试
  • 【开题答辩全过程】以 家庭理财管理系统的设计与实现为例,包含答辩的问题和答案
  • mit6.031 2023spring 软件构造 笔记 Testing
  • 自定义创建Linux内核Tracepoint
  • git的子模块讲解
  • mmaction安装的详细说明帖
  • 【ArcGIS微课1000例】0150:如何根据地名获取经纬度坐标
  • 基于springboot的摄影器材租赁回收系统
  • 疯狂星期四文案网第56天运营日记
  • LeetCode 36. 有效的数独 - 解题思路与实现详解
  • arnold图像加密(猫脸变换)
  • AIGC应用与实践 - 实验3:使用豆包生成播客
  • 赵玉平《刘备谋略》读书笔记(上部)
  • zookeeper集群是什么技术, 有什么作用
  • 第三阶梯:变动感知——在流沙之上,建造你的灯塔