当前位置：首页 > news >正文

优化算法之梯度下降

news 2025/9/28 13:42:53

优化算法-梯度下降

文章目录

优化算法-梯度下降
1. 函数
  1. 函数的概念
2. 线性模型概述
3. 初始化
  1. 权重
  2. 偏置
4. 损失函数
  1. MSE
5. 优化算法
  1. 导数
    1. 常用导数公式
  2. 多元函数
    1. 多元函数的概念
    2. 偏导数
    3. 梯度
    4. 链式法则
6. 实战
  1. 自动求导
  2. 梯度下降推导

文章概要

本文围绕优化算法中的梯度下降展开，系统介绍了相关的基础概念与核心知识。首先阐释了函数的基本概念，即函数是输入到输出的映射，每个输入对应唯一输出。接着概述了线性模型，包括其基本形式（如 $y = w x + b$ ）、高维数据集下的表示方法，以及线性模型的优缺点。随后讲解了模型初始化，指出权重通常随机猜测，偏置一般初始化为0。对于损失函数，文章介绍了其作用（衡量预测值与真实值差异）、常见类型，并重点阐述了回归问题中常用的均方误差（MSE）的定义、几何意义、优缺点及应用。最后，在优化算法部分，依次讲解了导数（描述函数变化快慢、定义及常用公式）、多元函数（概念及涉及的偏导数、梯度）以及链式法则（用于复合函数求导），这些内容为理解梯度下降算法奠定了重要基础。

函数

函数的概念

函数是一个映射，将输入映射到输出。
每个输入都对应一个唯一的输出。
也就是每个x都有唯一的一个y与之对应。
函数的定义：
$y = f(x)=x^2 + 1$

线性模型概述

线性模型是最简单的深度学习模型之一，它的基本形式是一个线性变换

线性模型的基本形式如下：

$y = w x + b$

其中， $w$ 是权重， $b$ 是偏置， $x$ 是输入， $y$ 是输出。

线性模型的优点是简单易用，计算效率高，适用于线性可分的数据。

线性模型的缺点是无法拟合非线性数据，需要使用非线性模型来解决非线性问题。

在机器学习领域，我们通常使用的是高维数据集，建模时采用线性代数表示法会比较方便。当我们的输入包含 $d$ 个特征时，我们将预测结果 $y^\hat{y}$ （通常使用“尖角”符号表示
的估计值）表示为：

$y^=w1x1+w2x2+...+wdxd+b\hat{y} = w_1x_1 + w_2x_2 + ... + w_dx_d + b$

将所有特征放到向量中，并将所有权重放到向量中，我们可以简洁地表达模型
$y^=wTx+b\hat{y} = w^Tx + b$

其中， $w$ 和 $x$ 是列向量， $b$ 是标量。

整个数据集的n个样本可以表示为：

$Y^=XW+b\hat{Y} = XW + b$

初始化

权重

模型最开始的权重我们一般就是随机猜测

偏置

偏置一般初始化为0，初始化为 0 通常能提供稳定的训练起点，尤其在浅层模型中。

损失函数

损失函数是用来衡量模型预测值与真实值之间的差异的函数。

损失函数的作用是指导模型的学习过程，使得模型的预测值逐渐接近真实值。

损失函数的选择取决于具体的问题和模型。

常见的损失函数包括：

均方误差（MSE）：用于回归问题
交叉熵损失（Cross Entropy Loss）：用于分类问题
对数损失（Log Loss）：用于二分类问题
多分类交叉熵损失（Multi-Class Cross Entropy Loss）：用于多分类问题
自定义损失函数：根据具体问题进行定义

损失函数的选择对模型的性能和收敛速度有很大影响。需要根据具体问题和模型进行选择。

MSE

均方误差（Mean Squared Error，MSE）是一种常用的损失函数，用于回归问题。
均方差有非常好的几何意义，它对应了常用的欧几里得距离或简称欧式距离

MSE的定义如下：

$MSE=1n∑i=1n(yi−yi^)2MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2$

其中， $y_i$ 是真实值， $yi^\hat{y_i}$ 是预测值， $n$ 是样本数量。

MSE的优点是简单易用，计算效率高，适用于线性可分的数据。

MSE的缺点是对异常值敏感，容易受到异常值的影响。

MSE的主要应用包括：

回归：预测连续值

而我们的任务目标其实就是最小化MSE，也就是找到一个模型，使得模型的预测值与真实值之间的差异最小。

优化算法

导数

导数是微积分中描述函数变化快慢的核心概念，简单来说就是瞬间变化率。它能帮我们解决 “速度、斜率、极值” 等实际问题

$x0−>x0+Δxx_0 -> x_0+\Delta{x}$ x发生了改变，y也发生了变化 $f(x0)−>f(x0+Δx)f(x_0) -> f(x_0+\Delta{x})$

变化率：就是他们之间的比值，我们可以用下面的公式表示：
$f(x0+Δx)−f(x0)Δx\frac{f(x_0+\Delta{x})-f(x_0)}{\Delta{x}}$

它想描述的是因变量的变化比上自变量的变化。

$速度=距离时间速度=\frac{距离}{时间}$
开车时，速度表显示的 “当前时速 60 公里” 是怎么来的？
就是他在某个时间点的瞬时速度

所以就是对它求极限：
导数的定义：
$\lim_{\Delta{x} \to 0} \frac{f(x+\Delta{x}) - f(x)}{\Delta{x}}$

如果f’(a)存在，则称 $f$ 在 $a$ 处是可微（differentiable）的。如果 $f$ 在一个区间内的每个数上都是可微的，则此函数在此区间中是可微的。我们可以将中的导数 $f^{'} (x)$ 解释为 $f (x)$ 相对于 $x$ 的瞬时（instantaneous）变化率。所谓的瞬时变化率是基于 $x$ 中的变化 $Δx\Delta{x}$ ，且 $Δx\Delta{x}$ 接近0

让我们熟悉一下导数的几个等价符号：
$\frac{dy}{dx} = \frac{df}{dx} = \frac{d}{dx} f(x) = Df(x) = D_x f(x)$

在数学图像上，导数表示函数曲线在某一点的切线斜率。

常用导数公式

通过定义推导后，数学家总结了一套 “导数公式表”，避免每次都算极限

函数	导数
常数C	0
$f(x) = x^n$	$f'(x) = nx^{n-1}$
$\sin x$	$\cos x$
$\cos x$	$-\sin x$
$\tan x$	$f'(x) = \sec^2 x$
$\ln x$	$\frac{1}{x}$
$f(x) = e^x$	$f'(x) = e^x$
$f(x) = a^x$	$f'(x) = a^x \ln a$
$\frac{1}{x^2}$	$-\frac{2}{x^3}$

多元函数

多元函数的概念

在深度学习中，函数通常依赖于许多变量。因此，我们需要将微分的思想推广到多元函数（multivariate function）上

多元函数是指包含两个或多个自变量的函数，它描述了因变量与多个因素之间的关系。现实中，大多数问题都涉及多个变量，例如：
气温（与时间、纬度、海拔、风速等有关）
房价（与面积、地段、楼层、房龄等有关）
神经网络的输出（与大量权重和偏置有关）

多元函数是指将多个变量作为输入，得到一个单一的输出的函数。
例如，一个二元函数 $f (x, y)$ 可以表示为：
$f(x, y) = x^2 + y^2$

偏导数

在单变量函数中，我们用导数描述函数随一个变量的变化率（如直线斜率）。但现实中很多问题涉及多个变量，比如气温受时间、海拔、风速等影响，此时需要用偏导数来分析函数在某个变量方向上的变化规律。

固定其他变量，只看一个变量的变化，核心思维就是化繁为简：将多变量问题拆解为单变量问题，逐个分析。

假设我们有一个二元函数 $f (x, y)$ ，其中 $x$ 和 $y$ 是两个变量。
先设y不变，x进行变化，则是对x求偏导
$∂f∂x=lim⁡Δx→0f(x+Δx,y)−f(x,y)Δx\frac{\partial f}{\partial x} = \lim_{\Delta{x} \to 0} \frac{f(x+\Delta{x}, y) - f(x, y)}{\Delta{x}}$
再设x不变，y进行变化，则是对y求偏导
$∂f∂y=lim⁡Δx→0f(x,y+Δx)−f(x,y)Δx\frac{\partial f}{\partial y} = \lim_{\Delta{x} \to 0} \frac{f(x, y+\Delta{x}) - f(x, y)}{\Delta{x}}$

所以在求偏导的时候，就是对求导的其他变量看作是常数，对求导的变量进行求导。
例如，对二元函数 $f(x, y) = x^2 + y^2$ 求偏导：
$∂f∂x=lim⁡h→0(x+h)2+y2−(x2+y2)h\frac{\partial f}{\partial x} = \lim_{h \to 0} \frac{(x+h)^2 + y^2 - (x^2 + y^2)}{h}$
$∂f∂y=lim⁡h→0x2+(y+h)2−(x2+y2)h\frac{\partial f}{\partial y} = \lim_{h \to 0} \frac{x^2 + (y+h)^2 - (x^2 + y^2)}{h}$
$∂f∂x=2x\frac{\partial f}{\partial x} = 2x$
$∂f∂y=2y\frac{\partial f}{\partial y} = 2y$
所以，
$∇f=[∂f∂x∂f∂y]\nabla f = \begin{bmatrix} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{bmatrix}$
$∇f=[2x2y]\nabla f = \begin{bmatrix} 2x \\ 2y \end{bmatrix}$

梯度

我们可以连结一个多元函数对其所有变量的偏导数，以得到该函数的梯度（gradient）向量。

链式法则

在深度学习中，多元函数通常是复合（composite）的

通过链式法则，将复合函数对自变量的导数分解为对中间变量的偏导数与中间变量对自变量的导数的乘积之和。
假设我们有一个复合函数 $z = f (u, v) u = g (x, y) v = h (x, y)$ ，其中 $x$ 和 $y$ 是两个变量， $u$ 和 $v$ 是两个中间变量， $f$ 和 $g$ 和 $h$ 是三个函数。
则复合函数 $z$ 的导数可以表示为：
$∂z∂x=∂z∂u∂u∂x+∂z∂v∂v∂x\frac{\partial z}{\partial x} = \frac{\partial z}{\partial u} \frac{\partial u}{\partial x} + \frac{\partial z}{\partial v} \frac{\partial v}{\partial x}$
$∂z∂y=∂z∂u∂u∂y+∂z∂v∂v∂y\frac{\partial z}{\partial y} = \frac{\partial z}{\partial u} \frac{\partial u}{\partial y} + \frac{\partial z}{\partial v} \frac{\partial v}{\partial y}$
其中，
$∂z∂u=∂f(u,v)∂u\frac{\partial z}{\partial u} = \frac{\partial f(u,v)}{\partial u}$
$∂z∂v=∂f(u,v)∂v\frac{\partial z}{\partial v} = \frac{\partial f(u,v)}{\partial v}$
$∂u∂x=∂g(x,y)∂x\frac{\partial u}{\partial x} = \frac{\partial g(x,y)}{\partial x}$
$∂u∂y=∂g(x,y)∂y\frac{\partial u}{\partial y} = \frac{\partial g(x,y)}{\partial y}$

实战

自动求导

求导是几乎所有深度学习优化算法的关键步骤。虽然求导的计算很简单，只需要一些基本的微积分。但对于复杂的模型，手工进行更新是一件很痛苦的事情（而且经常容易出错）。

深度学习框架通过自动计算导数，即自动微分（automatic differentiation）来加快求导。实际中，根据设计好的模型，系统会构建一个计算图（computational graph），来跟踪计算是哪些数据通过哪些操作组合起来产生输出。自动微分使系统能够随后反向传播梯度。这里，反向传播（backpropagate）意味着跟踪整个计算图，填充关于每个参数的偏导数。

首先, 我们先初始化权重, 参数。

import torch# 线性回归模型 一元 只考虑一个特征
# y = wx
x = torch.tensor([2.])
w = torch.tensor([3.])  # 初始化权重 参数
y = torch.tensor([4.])
x, w, y

结果:

(tensor([2.]), tensor([3.]), tensor([4.]))

接下来我们就要开启梯度计算:

w.requires_grad_()  # 开启梯度计算，告诉pytorch 需要跟踪w的所有操作
w

结果:

w.requires_grad_()  # 开启梯度计算，告诉pytorch 需要跟踪w的所有操作
w

接下来我们需要构建一个模型:

# 模型
def model(x):return x * wy_hat = model(x)  # 让模型进行推理预测
y_hat

结果:

tensor([6.], grad_fn=<MulBackward0>)

然后我们用mse_loss函数来计算预测值和真实值之间的差距, 利用mse均方误差的方法:

import torch.nn.functional as Fmse = F.mse_loss(y, y_hat)  # (4-6)**2 = 4 # (4 - (2 * 3)) ** 2 = 4
mse

结果:

tensor(4., grad_fn=<MseLossBackward0>)

这里说明一下: torch.nn 是 PyTorch 中用于构建神经网络的模块。它提供了各种层（如线性层、卷积层、池化层等）和激活函数（如 ReLU、Sigmoid 等），使得构建和训练神经网络变得更加简单和高效。

接下来我们需要反向传播并计算梯度:

mse.backward()  # 反向传播 计算梯度 计算mse关于w的梯度
print(w.grad) # 存储了mse关于w的梯度值

结果:

tensor([8.])

我们不难看出, 权重参数w增大时，损失函数以速率8进行增大, 所以我们需要损失函数计算的损失值越来越低，求模型的最优损失解，朝梯度的反方向进行更新。

梯度下降推导

那w如何变化能够让损失函数逐步降低？

解决方案:权重w增大，损失函数以速率8增大，权重w减小的时候，损失函数以8减小
梯度的方向上坡方向，损失函数增大的方向，我们要求的是损失最小，我们要找的方向是下坡，负的梯度
所以我们是需要沿着负梯度的方向移动
优化算法-梯度下降算法
$w新=w旧−η∂L∂ww_新 = w_旧-\eta\frac{\partial L}{\partial w}$

我们可以计算一下训练三轮后, 权重会有什么变化:

$y^\hat{y}$ = $w * x$

$L=(y−y^)2=(y−w∗x)2L = (y - \hat{y})^2 = (y - w * x)^2$

$∂L∂w=2x(wx−y)\frac{\partial L}{\partial w} = 2x(wx - y)$

=================================

x = 2, w = 3, y = 4

$y^\hat{y}$ = 6

$L = (4 - 6)^2 = (-2)^2 = 4$

$∂L∂w=2∗2∗(3∗2−4)=8\frac{\partial L}{\partial w} = 2 * 2 * (3 * 2 - 4) = 8$

$w新=w旧−η∂L∂ww_新 = w_旧 - \eta\frac{\partial L}{\partial w}$

假设 $η=0.1\eta = 0.1$

$w_新 = 3 - 0.1 * 8 = 2.2$

=========================

x = 2, w = 2.2, y = 4

$y^\hat{y}$ = 4.4

$L = (4 - 4.4)^2 = (-0.4)^2 = 0.16$

$∂L∂w=2∗2∗(2.2∗2−4)=1.6\frac{\partial L}{\partial w} = 2 * 2 * (2.2 * 2 - 4) = 1.6$

$w新=w旧−η∂L∂ww_新 = w_旧 - \eta\frac{\partial L}{\partial w}$

假设 $η=0.1\eta = 0.1$

$w_新 = 2.2 - 0.1 * 1.6 = 2.2 - 0.16 = 2.04$

================================

x = 2, w = 2.04, y = 4

$y^\hat{y}$ = 4.08

$L = (4 - 4.08)^2 = (-0.08)^2 = 0.0064$

$∂L∂w=2∗2∗(2.04∗2−4)=0.32\frac{\partial L}{\partial w} = 2 * 2 * (2.04 * 2 - 4) = 0.32$

$w新=w旧−η∂L∂ww_新 = w_旧 - \eta\frac{\partial L}{\partial w}$

假设 $η=0.1\eta = 0.1$

$w_新 = 2.04 - 0.1 * 0.32 = 2.04 - 0.032 = 2.008$

我们可以很直观的看到, 通过三轮训练后, 权重越来越接近正确的权重了, 从3 -> 2.2 -> 2.04 -> 2.008

那我们如何知道学习率(超参数)在多少范围内算是合适呢?

在这一个样本、模型 y = w x 的场景下，最优解就是 w* = y/x = 2。用学习率 0.1 做梯度下降时，w 会快速逼近 2。

收敛公式（单样本）

更新： $w_{t+1} = w_t - η·2x(wx - y)$

误差： $e_t = w_t - w^*，有 e_{t+1} = (1 - 2ηx^2)·e_t$

因此 $e_t = (1 - 2ηx^2)^t · e_0$

代入你当前数值 x=2, η=0.1

收敛因子 $r = 1 - 2·0.1·(2^2) = 0.2$

初始误差 $e_0 = 3 - 2 = 1$

所以 $e_t = 0.2^t，即 w_t = 2 + 0.2^t$

前几步：3 → 2.2 → 2.04 → 2.008 → 2.0016 → 2.00032 …（与你算的一致）

“多少轮能到正确的 w？”

理论上无限步才“恰好等于”2；但数值上可用精度阈值 ε 判断足够接近：

需要步数 $t \geq l o g (ε /∣ e 0∣) / l o g (∣ r ∣)$

例如 $ε = 1 e - 3 ： t \geq l o g (1 e - 3/1) / l o g (0.2) \approx 4.29$ → 5 步内

ε=1e-6：t ≈ 8 步

收敛条件： $0 < η < 1/x^2$ 。本例 η=0.1 < 0.25，所以稳定收敛。

如何推导学习率的范围?

推导
- 记最优解 $w^* = y/x$ ，误差 $e_t = w_t - w^*$ 。
- 一步更新： $wt+1=wt−η⋅2x(wx−y)w_{t+1} = w_t - \eta \cdot 2x(wx - y)$ 。
- 化成误差形式： $ete_{t+1} = (1 - 2\eta x^2)\, e_t$ 。
- 要收敛，需要误差因子绝对值小于 1： $2\eta x^2| < 1$ 。
- 解得： $2\eta x^2 < 1 \Rightarrow 0 < \eta x^2 < 1 \Rightarrow 0 < \eta < 1/x^2$ 。
边界与现象
- $η=0\eta = 0$ ：不更新，不收敛。
- $η=1/x2\eta = 1/x^2$ ：因子为 $- 1$ ，误差大小不变、符号来回跳，震荡不收敛。
- $\eta < 1/(2x^2)$ ：因子在 (0,1)，单调收敛（不震荡）。
- $1/(2x2)<η<1/x21/(2x^2) < \eta < 1/x^2$ ：因子在 (-1,0)，交替震荡但幅度递减，收敛。
- $η>1/x2\eta > 1/x^2$ ： $2\eta x^2| > 1$ ，发散或震荡放大。
本例 $x = 2$
- 上界 $1/x^2 = 1/4 = 0.25$ 。取 $η=0.1\eta=0.1$ 满足条件，因子 $2\eta x^2 = 1 - 0.8 = 0.2$ ，因此快速、单调收敛。

求证: 将 $wt+1=wt−η⋅2x(wx−y)w_{t+1} = w_t - \eta \cdot 2x(wx - y)$ 化成误差形式 $ete_{t+1} = (1 - 2\eta x^2)\, e_t$ 。
答:

定义最优解与误差

最优解： $w∗=yxw^* = \frac{y}{x}$ （使 $L(w)=(y-wx)^2$ 最小）
误差： $e_t = w_t - w^*$

用最优解改写残差

残差： $wx - y = x(w - w^*) = x e_t$

代入更新公式并减去最优解

原更新： $wt+1=wt−η⋅2x(wx−y)w_{t+1} = w_t - \eta \cdot 2x(wx - y)$
用第2步替换： $wt+1=wt−η⋅2x⋅(xet)=wt−2ηx2etw_{t+1} = w_t - \eta \cdot 2x \cdot (x e_t) = w_t - 2\eta x^2 e_t$
两边同时减去 $w^*$ ： $wt+1−w∗=(wt−w∗)−2ηx2etw_{t+1} - w^* = (w_t - w^*) - 2\eta x^2 e_t$

得到误差递推

即： $ete_{t+1} = (1 - 2\eta x^2)\, e_t$

关键就在于把残差 $w x - y$ 用相对最优解的误差 $e_t$ 表示： $wx-y = x e_t$ 。

好了, 这篇文章关于优化算法-梯度下降的内容就到此结束了!!!

以上就是优化算法-梯度下降的所有内容了, 如果有哪里不懂的地方,可以把问题打在评论区, 欢迎大家在评论区交流!!!
如果我有写错的地方, 望大家指正, 也可以联系我, 让我们一起努力, 继续不断的进步.
学习是个漫长的过程, 需要我们不断的去学习并掌握消化知识点, 有不懂或概念模糊不理解的情况下,一定要赶紧的解决问题, 否则问题只会越来越多, 漏洞也就越老越大.
人生路漫漫, 白鹭常相伴!!!

查看全文

http://www.dtcms.com/a/416183.html