当前位置: 首页 > news >正文

【硬核数学】4. AI的“寻路”艺术:优化理论如何找到模型的最优解《从零构建机器学习、深度学习到LLM的数学认知》

欢迎来到本系列的第四篇文章。我们已经知道,训练一个AI模型,本质上是在寻找一组参数,使得描述模型“有多差”的损失函数 L ( θ ) L(\theta) L(θ) 达到最小值。微积分给了我们强大的工具——梯度下降,告诉我们如何一步步地向着最优解前进。

然而,梯度下降就像一个蒙着眼睛的登山者,他只知道脚下哪块地势更低,就往哪儿挪一小步。这种策略在平缓的山坡上或许有效,但如果遇到崎岖复杂、充满悬崖峭壁和山谷的地形,就很容易陷入困境。更重要的是,如果登山规则要求他必须在某个特定的区域内活动,他该如何是好?

优化理论,就是为这位登山者提供高级导航系统和行动策略的科学。它研究的,是如何在给定目标(最小化或最大化某个函数)和一系列约束条件下,系统性地找到最优解。它将我们从“盲目地走一步看一步”提升到“制定全局最优策略”的高度。准备好了吗?让我们开始这场关于“最优”的智慧之旅。

第一部分:理想的寻宝地图 —— 凸优化

在深入复杂的现实世界之前,我们先来研究一种最理想、最美好的情况——凸优化 (Convex Optimization)。如果一个优化问题是凸的,那么它就拥有一个神圣的属性:任何局部最优解都是全局最优解

这意味着什么?对于我们那位蒙着眼睛的登山者来说,只要他走到了一个山谷的谷底(局部最小值),他就可以百分之百地确定,这里就是整个山脉的最低点(全局最小值)。他再也不用担心自己是不是被困在了一个小土坑里,而真正的万丈深渊还在别处。这个特性,让优化问题从一个充满不确定性的探索,变成了一个必然能找到最终答案的计算。

什么是“凸”?

要理解凸优化,我们首先要理解两个核心概念:凸集 (Convex Set)凸函数 (Convex Function)

  1. 凸集
    一个集合是凸的,如果集合内的任意两点,连接它们的线段也完全包含在这个集合之内。
    在这里插入图片描述
    上图中,左边的椭圆是凸集,因为你无论怎么在里面选两点,它们的连线都不会跑出去。而右边的月牙形就是非凸集,因为我们可以轻易找到两个点,其连线的一部分落在了集合之外。在优化问题中,我们寻找的解(参数)通常被限制在一个可行域内,如果这个可行域是一个凸集,事情就变得简单多了。

  2. 凸函数
    一个定义在凸集上的函数是凸函数,如果对于定义域中的任意两点 x 1 , x 2 x_1, x_2 x1,x2,连接 ( x 1 , f ( x 1 ) ) (x_1, f(x_1)) (x1,f(x1)) ( x 2 , f ( x 2 ) ) (x_2, f(x_2)) (x2,f(x2)) 的线段,总是位于函数图像的上方(或恰好在图像上)。
    在这里插入图片描述

    直观上看,凸函数的图像就像一个“碗”。无论你在碗边的哪个位置,只要你往下走,最终都必然会到达唯一的碗底。而非凸函数则像一个坑坑洼洼的蛋托,有很多个“坑”,如果你不幸掉进一个比较浅的坑(局部最小值),你可能就出不来了,也就错过了那个最深的坑(全局最小值)。

凸优化的威力与AI的联系

一个凸优化问题,指的是在一个凸的可行集上,最小化一个凸函数。
min ⁡ x f ( x ) subject to g i ( x ) ≤ 0 , i = 1 , … , m h j ( x ) = 0 , j = 1 , … , p \begin{aligned} \min_{\mathbf{x}} \quad & f(\mathbf{x}) \\ \text{subject to} \quad & g_i(\mathbf{x}) \le 0, \quad i=1, \dots, m \\ & h_j(\mathbf{x}) = 0, \quad j=1, \dots, p \end{aligned} xminsubject tof(x)gi(x)0,i=1,,mhj(x)=0,j=1,,p
如果目标函数 f f f 是凸的,不等式约束函数 g i g_i gi 也是凸的,等式约束函数 h j h_j hj 是仿射的(即形如 a T x − b = 0 \mathbf{a}^T\mathbf{x} - b = 0 aTxb=0),那么整个问题就是凸优化问题。

为什么这在机器学习中至关重要?
因为许多基础且强大的机器学习模型,其求解过程恰好就是凸优化问题!

  • 线性回归:其损失函数是均方误差(MSE),这是一个经典的二次函数,是凸的。
  • 逻辑回归:其损失函数是交叉熵,在合适的参数化下也是凸的。
  • 支持向量机 (SVM):我们稍后会详细讲,它的原始形式也是一个凸的二次规划问题。

当一个问题可以被表述为凸优化时,我们就有理论保证,通过梯度下降等算法,我们找到的解就是全局最优解,不存在“运气不好陷入局部最优”的情况。这为这些模型的可靠性和稳定性提供了坚实的数学基础。

然而,现代深度学习的世界则要复杂得多。一个拥有数亿参数的神经网络,其损失函数地貌(Loss Landscape)是极其复杂的非凸函数,充满了无数的局部最小值、鞍点和高原。尽管如此,凸优化的思想仍然是理解所有优化算法的起点。它为我们建立了一个理想的参照系,让我们明白在“完美世界”里优化是如何工作的,从而更好地理解和设计在“不完美世界”里挣扎的算法。

第二部分:戴着镣铐跳舞 —— 拉格朗日乘子法

凸优化为我们描绘了一幅美好的蓝图,但它主要处理的是无约束或约束相对简单的情况。现实中的问题,往往伴随着各种复杂的等式约束不等式约束。比如,在资源分配问题中,总预算不能超;在工程设计中,某些部件的尺寸必须精确等于某个值。

我们如何处理这些“镣铐”呢?直接在受限的空间里进行梯度下降是非常困难的,因为梯度的方向很可能指向约束区域的外部。我们需要一种更强大的方法,将一个有约束的优化问题,转化为一个我们更擅长解决的无约束优化问题

这个神奇的转化工具,就是拉格朗日乘子法 (Lagrange Multipliers)

等式约束的直观理解

让我们从最简单的情况开始:一个目标函数 f ( x , y ) f(x, y) f(x,y) 和一个等式约束 g ( x , y ) = c g(x, y) = c g(x,y)=c。我们的目标是:
min ⁡ f ( x , y ) subject to g ( x , y ) = c \begin{aligned} \min \quad & f(x, y) \\ \text{subject to} \quad & g(x, y) = c \end{aligned} minsubject tof(x,y)g(x,y)=c
想象一下, f ( x , y ) f(x, y) f(x,y) 是一个山谷的海拔高度,我们想找到最低点。而 g ( x , y ) = c g(x, y) = c g(x,y)=c 是画在地图上的一条蜿蜒小路,我们被规定只能沿着这条小路走。

在这里插入图片描述

这张图揭示了最优解的一个关键几何特性:在最优点,目标函数 f f f 的等高线与约束函数 g g g 的曲线是相切的。

为什么?可以这样反证:如果它们不相切,而是相交,那么意味着我们可以沿着约束曲线 g g g 再走一小步,同时穿到一条更低的 f f f 的等高线上去,这就说明当前点还不是最优点。只有当它们相切,我们沿着约束曲线的任何微小移动,都会导致我们进入更高的等高线,这时我们才真正到达了“在约束下的最低点”。

在微积分中我们知道,一个函数的梯度向量垂直于其等高线。因此,在相切点,两个函数的梯度向量是平行的。用数学语言表达就是:
∇ f ( x ) = − λ ∇ g ( x ) \nabla f(\mathbf{x}) = -\lambda \nabla g(\mathbf{x}) f(x)=λg(x)
或者写成:
∇ f ( x ) + λ ∇ g ( x ) = 0 \nabla f(\mathbf{x}) + \lambda \nabla g(\mathbf{x}) = 0 f(x)+λg(x)=0
这里的 λ \lambda λ 就是拉格朗日乘子,它是一个标量,表示在最优点,两个梯度向量大小的比例关系。

拉格朗日函数:约束问题的“变形金刚”

基于上述发现,拉格朗日引入了一个构造性的函数,称为拉格朗日函数 (Lagrangian Function)
L ( x , λ ) = f ( x ) + λ ( g ( x ) − c ) \mathcal{L}(\mathbf{x}, \lambda) = f(\mathbf{x}) + \lambda (g(\mathbf{x}) - c) L(x,λ)=f(x)+λ(g(x)c)
现在,奇迹发生了。我们来看这个新函数的梯度:
∇ x L = ∇ f ( x ) + λ ∇ g ( x ) = 0 \nabla_{\mathbf{x}} \mathcal{L} = \nabla f(\mathbf{x}) + \lambda \nabla g(\mathbf{x}) = 0 xL=f(x)+λg(x)=0
∇ λ L = g ( x ) − c = 0 \nabla_{\lambda} \mathcal{L} = g(\mathbf{x}) - c = 0 λL=g(x)c=0
看!我们对拉格朗日函数 L \mathcal{L} L 求解无约束的极值点(即梯度为0的点),得到的方程组,恰好就是我们前面推导出的最优性条件(梯度平行)和原始的约束条件本身!

通过引入拉格朗日乘子 λ \lambda λ 并构造拉格朗日函数,我们成功地将一个 x \mathbf{x} x 空间中的有约束优化问题,转化为了一个 ( x , λ ) (\mathbf{x}, \lambda) (x,λ) 联合空间中的无约束优化问题。这就是拉格朗日乘子法的核心思想。

推广到不等式约束:KKT条件

对于更普遍的不等式约束 h ( x ) ≤ 0 h(\mathbf{x}) \le 0 h(x)0,情况稍微复杂一些,但思想一脉相承。这引出了更通用的卡鲁什-库恩-塔克 (Karush-Kuhn-Tucker, KKT) 条件。KKT条件是拉格朗日乘子法的推广,它构成了非线性规划领域最优解的必要条件。

对于不等式约束 h ( x ) ≤ 0 h(\mathbf{x}) \le 0 h(x)0,在最优点,只有两种可能:

  1. 约束未起作用 (Inactive):最优点在约束区域的内部,即 h ( x ) < 0 h(\mathbf{x}) < 0 h(x)<0。此时约束就像不存在一样,对应的拉格朗日乘子 μ \mu μ 必须为0。
  2. 约束起作用 (Active):最优点在约束区域的边界上,即 h ( x ) = 0 h(\mathbf{x}) = 0 h(x)=0。此时情况就和等式约束一样, ∇ f \nabla f f ∇ h \nabla h h 梯度反向平行,对应的拉格朗日乘子 μ > 0 \mu > 0 μ>0

这两种情况可以被一个优美的条件统一起来,称为互补松弛性 (Complementary Slackness)
μ ⋅ h ( x ) = 0 \mu \cdot h(\mathbf{x}) = 0 μh(x)=0
这个条件完美地概括了上述两种情况。KKT条件就是将梯度条件、原始约束和互补松弛性等结合在一起的一组方程和不等式,它们是判断一个点是否为约束优化问题最优解的“黄金标准”。

AI应用:正则化 (Regularization)
拉格朗日乘子法为我们理解机器学习中最重要的概念之一——正则化——提供了深刻的洞察。
在训练模型时,我们不仅要最小化训练误差(损失函数 L t r a i n L_{train} Ltrain),还要防止模型过于复杂导致过拟合。一个常用的方法是限制模型参数 w \mathbf{w} w 的大小。比如,L2正则化要求参数的L2范数的平方 ∣ ∣ w ∣ ∣ 2 2 ||\mathbf{w}||_2^2 ∣∣w22 不能超过某个值 C C C
这可以写成一个约束优化问题:
min ⁡ w L t r a i n ( w ) subject to ∣ ∣ w ∣ ∣ 2 2 ≤ C \begin{aligned} \min_{\mathbf{w}} \quad & L_{train}(\mathbf{w}) \\ \text{subject to} \quad & ||\mathbf{w}||_2^2 \le C \end{aligned} wminsubject toLtrain(w)∣∣w22C
这是一个典型的不等式约束问题。我们可以写出它的拉格朗日函数:
L ( w , μ ) = L t r a i n ( w ) + μ ( ∣ ∣ w ∣ ∣ 2 2 − C ) \mathcal{L}(\mathbf{w}, \mu) = L_{train}(\mathbf{w}) + \mu (||\mathbf{w}||_2^2 - C) L(w,μ)=Ltrain(w)+μ(∣∣w22C)
在实践中,我们通常不直接解这个带约束的问题,而是解一个等价的无约束问题:
min ⁡ w L t r a i n ( w ) + α ∣ ∣ w ∣ ∣ 2 2 \min_{\mathbf{w}} \quad L_{train}(\mathbf{w}) + \alpha ||\mathbf{w}||_2^2 wminLtrain(w)+α∣∣w22
这里的 α \alpha α 就是正则化系数。优化理论告诉我们,对于每一个正则化系数 α > 0 \alpha > 0 α>0,都存在一个约束边界 C C C,使得这两个问题的解是相同的。拉格朗日乘子法在这里充当了桥梁,它揭示了添加正则化项施加参数约束这两种看似不同的操作,在数学本质上是等价的。

第三部分:乾坤大挪移 —— 对偶理论

如果说拉格朗日乘子法是处理约束问题的“正攻法”,那么对偶理论 (Duality) 就是一套精妙绝伦的“乾坤大挪移心法”。它通过变换视角,将一个难解的问题(原问题, Primal Problem)转化为另一个可能更容易求解的问题(对偶问题, Dual Problem)。

这套心法的巅峰之作,就是催生了机器学习领域的一代传奇——支持向量机 (SVM)

原问题与对偶问题

我们从拉格朗日函数 L ( x , μ ) = f ( x ) + μ h ( x ) \mathcal{L}(\mathbf{x}, \mu) = f(\mathbf{x}) + \mu h(\mathbf{x}) L(x,μ)=f(x)+μh(x) 出发。

  • 原问题 (Primal Problem) 可以看作是一个“先固定 x \mathbf{x} x,再优化 μ \mu μ”的过程(虽然我们不这么解),但其本质是:
    p ∗ = min ⁡ x max ⁡ μ ≥ 0 L ( x , μ ) p^* = \min_{\mathbf{x}} \max_{\mu \ge 0} \mathcal{L}(\mathbf{x}, \mu) p=xminμ0maxL(x,μ)
    这里的 p ∗ p^* p 是原问题的最优值。为什么是 max ⁡ μ ≥ 0 \max_{\mu \ge 0} maxμ0?因为如果 x \mathbf{x} x 违反了约束(即 h ( x ) > 0 h(\mathbf{x}) > 0 h(x)>0),那么我们可以让 μ → ∞ \mu \to \infty μ,使得 L → ∞ \mathcal{L} \to \infty L,这样违反约束的解就不会在最小化过程中被选中。如果 x \mathbf{x} x 满足约束(即 h ( x ) ≤ 0 h(\mathbf{x}) \le 0 h(x)0),那么为了让 L \mathcal{L} L 尽可能小, max ⁡ μ ≥ 0 \max_{\mu \ge 0} maxμ0 的结果就是 f ( x ) f(\mathbf{x}) f(x)(因为 μ h ( x ) ≤ 0 \mu h(\mathbf{x}) \le 0 μh(x)0,取 μ = 0 \mu=0 μ=0 时最大)。所以这个式子等价于原始的约束优化问题。

  • 对偶问题 (Dual Problem) 则是交换了优化的顺序,变成了“先固定 μ \mu μ,再优化 x \mathbf{x} x”:
    d ∗ = max ⁡ μ ≥ 0 min ⁡ x L ( x , μ ) d^* = \max_{\mu \ge 0} \min_{\mathbf{x}} \mathcal{L}(\mathbf{x}, \mu) d=μ0maxxminL(x,μ)
    这里的 d ∗ d^* d 是对偶问题的最优值。我们先定义一个对偶函数 q ( μ ) = min ⁡ x L ( x , μ ) q(\mu) = \min_{\mathbf{x}} \mathcal{L}(\mathbf{x}, \mu) q(μ)=minxL(x,μ),然后最大化这个关于 μ \mu μ 的函数。

弱对偶与强对偶

一个至关重要的性质是弱对偶性 (Weak Duality),它表明对偶问题的最优值永远不会超过原问题的最优值:
d ∗ ≤ p ∗ d^* \le p^* dp
这总是成立的,无论原问题是不是凸的。直观上,对偶问题为原问题提供了一个下界。

而真正激动人心的是强对偶性 (Strong Duality)。在某些良好条件下(比如,原问题是凸优化问题,并满足一个叫Slater’s condition的约束规范条件),强对偶性成立:
d ∗ = p ∗ d^* = p^* d=p
当强对偶性成立时,原问题和对偶问题的最优解是相等的!这意味着,我们可以通过求解那个可能更简单的对偶问题,来得到原问题的解。这就好比想知道珠穆朗玛峰的海拔,我们不一定非要爬到山顶去测量,而是可以通过某种“对偶”的、在海平面进行的操作来精确计算出它的高度。

对偶理论的巅峰应用:支持向量机 (SVM)

支持向量机是展示对偶理论威力的最佳范例。SVM的目标是在两类数据点之间找到一个间隔最大 (Maximum Margin) 的分类超平面。

在这里插入图片描述

(这张图会展示两类数据点,中间有一个分类超平面。超平面两侧各有一条平行的虚线,穿过离它最近的数据点。这两条虚线之间的距离就是“间隔”或“margin”。那些落在虚线上的数据点被称为“支持向量”。)

这个“最大间隔”问题可以被形式化为一个带约束的二次规划问题(即原问题)。直接求解这个原问题是比较复杂的。然而,当我们将其转化为对偶问题后,奇迹发生了。

  1. 更易求解:SVM的对偶问题通常比原问题更容易用数值方法求解。

  2. 引出支持向量:在求解对偶问题后,我们会发现,大部分拉格朗日乘子 α i \alpha_i αi 的值都为0,只有少数不为0。这些 α i ≠ 0 \alpha_i \ne 0 αi=0 对应的样本点,恰好就是那些位于间隔边界上的支持向量 (Support Vectors)。最终的分类超平面,完全由这些少数的支持向量决定,而与其他样本点无关。这体现了SVM模型的高效性和稀疏性。

  3. 催生核技巧 (Kernel Trick):这是对偶理论带来的最璀璨的明珠。在SVM的对偶问题中,所有的计算都只涉及到输入样本点的内积 (dot product),即 ⟨ x i , x j ⟩ \langle \mathbf{x}_i, \mathbf{x}_j \rangle xi,xj
    这意味着,我们可以在计算内积的环节“做手脚”。我们可以用一个核函数 (Kernel Function) K ( x i , x j ) K(\mathbf{x}_i, \mathbf{x}_j) K(xi,xj) 来代替标准的内积 ⟨ x i , x j ⟩ \langle \mathbf{x}_i, \mathbf{x}_j \rangle xi,xj
    K ( x i , x j ) = ⟨ ϕ ( x i ) , ϕ ( x j ) ⟩ K(\mathbf{x}_i, \mathbf{x}_j) = \langle \phi(\mathbf{x}_i), \phi(\mathbf{x}_j) \rangle K(xi,xj)=ϕ(xi),ϕ(xj)⟩
    这里的 ϕ \phi ϕ 是一个从低维输入空间到高维特征空间的映射。核技巧的绝妙之处在于,它允许我们在一个极高维度(甚至是无限维度)的特征空间中学习一个线性分类器,而我们完全不需要显式地计算数据点在这个高维空间中的坐标!我们只需要在原始空间中计算核函数的值即可。

最终分类器
核技巧 (Kernel Trick)
SVM 对偶问题 (Dual)
SVM 原问题 (Primal)
原始输入空间 (低维)
高效的非线性分类器
用核函数 K(x_i, x_j) 替换
等价于在高维空间 ϕ(x) 中计算内积
无需计算 ϕ(x), 避免维度灾难
转化为对偶形式
优化变量变为 α_i
计算只依赖内积
最大化间隔
在高维空间中寻找 w, b
求解困难, 依赖维度
非线性可分数据 x

这个流程图清晰地展示了对偶理论是如何为核技巧铺平道路的。通过将问题从求解 w \mathbf{w} w 转换到求解 α i \alpha_i αi,计算的焦点从单个向量转移到了向量对之间的关系(内积),从而打开了通往高维特征空间的大门。这就是SVM能够高效学习复杂非线性边界的秘密。

融会贯通:优化理论在AI版图中的位置

今天,我们从理想的凸优化世界出发,学会了使用拉格朗日乘子法来驯服各种约束,最后领略了对偶理论的“乾坤大挪移”之术。优化理论为我们提供了远比“梯度下降”更宏大和深刻的视角。

  • 它是经典机器学习的理论支柱:没有凸优化和对偶理论,就没有我们今天所知的支持向量机。对正则化的深刻理解,也离不开拉格朗日乘子法。
  • 它是理解现代深度学习的基石:虽然深度学习的优化是非凸的,但其核心技术,如各种正则化方法(L1, L2, Dropout)、**优化器算法(Adam, RMSProp)**的设计,都深受经典优化理论的启发。例如,Adam等自适应优化器可以看作是在每一步迭代中,对梯度信息建立一个简单的二次模型(一种凸模型)并求解。
  • 它是通往更广阔AI领域的桥梁:强化学习中的策略优化、运筹学中的资源调度、控制论中的轨迹规划,其核心都是求解各种复杂的优化问题。

我们已经走过了线性代数(静态结构)、微积分(动态变化)、概率论(不确定性)和优化理论(寻找最优)。这四大支柱共同构成了经典机器学习的数学内核。掌握了它们,你就拥有了剖析和理解绝大多数机器学习算法的底层逻辑的能力。在下一篇文章中,我们将进入信息论的世界,看看如何用“信息”的视角来度量不确定性,并构建出像决策树这样的强大模型。


习题

第1题:凸函数判断
下列函数中,哪些是凸函数?
A. f ( x ) = e x f(x) = e^x f(x)=ex
B. f ( x ) = log ⁡ ( x ) f(x) = \log(x) f(x)=log(x), for x > 0 x > 0 x>0
C. f ( x ) = x 3 f(x) = x^3 f(x)=x3, for x ∈ R x \in \mathbb{R} xR
D. f ( x ) = ∣ ∣ x ∣ ∣ 2 2 f(\mathbf{x}) = ||\mathbf{x}||_2^2 f(x)=∣∣x22 (向量的L2范数平方)

第2题:拉格朗日乘子法应用
请使用拉格朗日乘子法,求解问题:在周长为 L L L 的所有矩形中,哪一个面积最大?

第3题:SVM与对偶理论概念
在SVM中,为什么说最终的分类器仅由“支持向量”决定?这与SVM的对偶问题有什么关系?


答案

第1题答案:A 和 D
A. f ( x ) = e x f(x) = e^x f(x)=ex。其二阶导数为 f ′ ′ ( x ) = e x > 0 f''(x) = e^x > 0 f′′(x)=ex>0,所以是严格凸函数。
B. f ( x ) = log ⁡ ( x ) f(x) = \log(x) f(x)=log(x)。其二阶导数为 f ′ ′ ( x ) = − 1 / x 2 < 0 f''(x) = -1/x^2 < 0 f′′(x)=1/x2<0,所以是凹函数,不是凸函数。
C. f ( x ) = x 3 f(x) = x^3 f(x)=x3。其二阶导数为 f ′ ′ ( x ) = 6 x f''(x) = 6x f′′(x)=6x,在 x < 0 x<0 x<0 时为负,在 x > 0 x>0 x>0 时为正,所以它既不是凸函数也不是凹函数。
D. f ( x ) = ∣ ∣ x ∣ ∣ 2 2 = ∑ i x i 2 f(\mathbf{x}) = ||\mathbf{x}||_2^2 = \sum_i x_i^2 f(x)=∣∣x22=ixi2。这是一个二次函数,其Hessian矩阵是一个对角线上元素为2,其余为0的矩阵,是正定的。因此,这是一个凸函数。

第2题答案:
设矩形的长和宽分别为 x x x y y y
目标函数(面积): f ( x , y ) = x y f(x, y) = xy f(x,y)=xy
约束条件(周长): 2 ( x + y ) = L ⟹ g ( x , y ) = 2 x + 2 y − L = 0 2(x+y) = L \implies g(x, y) = 2x + 2y - L = 0 2(x+y)=Lg(x,y)=2x+2yL=0

  1. 构造拉格朗日函数:
    L ( x , y , λ ) = f ( x , y ) + λ g ( x , y ) = x y + λ ( 2 x + 2 y − L ) \mathcal{L}(x, y, \lambda) = f(x, y) + \lambda g(x, y) = xy + \lambda(2x + 2y - L) L(x,y,λ)=f(x,y)+λg(x,y)=xy+λ(2x+2yL)

  2. 对所有变量求偏导数,并令其为0:
    ∂ L ∂ x = y + 2 λ = 0 ⟹ y = − 2 λ \frac{\partial \mathcal{L}}{\partial x} = y + 2\lambda = 0 \implies y = -2\lambda xL=y+2λ=0y=2λ
    ∂ L ∂ y = x + 2 λ = 0 ⟹ x = − 2 λ \frac{\partial \mathcal{L}}{\partial y} = x + 2\lambda = 0 \implies x = -2\lambda yL=x+2λ=0x=2λ
    ∂ L ∂ λ = 2 x + 2 y − L = 0 \frac{\partial \mathcal{L}}{\partial \lambda} = 2x + 2y - L = 0 λL=2x+2yL=0

  3. 求解方程组:
    从前两个式子可知, x = y x = y x=y
    x = y x=y x=y 代入第三个式子: 2 x + 2 x − L = 0 ⟹ 4 x = L ⟹ x = L / 4 2x + 2x - L = 0 \implies 4x = L \implies x = L/4 2x+2xL=04x=Lx=L/4
    因此, x = y = L / 4 x = y = L/4 x=y=L/4

结论:当矩形为正方形时,其面积最大。

第3题答案:
最终的分类器仅由“支持向量”决定,是因为在求解SVM的对偶问题后,得到的解(拉格朗日乘子 α i \alpha_i αi)具有稀疏性

对偶问题的解是一系列乘子 α 1 , α 2 , … , α N \alpha_1, \alpha_2, \dots, \alpha_N α1,α2,,αN,每个乘子对应一个训练样本。KKT条件中的互补松弛性表明,对于一个样本 x i \mathbf{x}_i xi,如果它不在间隔边界上(即它不是支持向量),那么它对应的乘子 α i \alpha_i αi 必须为0。

最终的决策函数(分类超平面)可以表示为:
f ( x ) = sign ( ∑ i = 1 N α i y i K ( x i , x ) + b ) f(\mathbf{x}) = \text{sign}(\sum_{i=1}^N \alpha_i y_i K(\mathbf{x}_i, \mathbf{x}) + b) f(x)=sign(i=1NαiyiK(xi,x)+b)
由于只有支持向量对应的 α i \alpha_i αi 才不为0,所以这个求和式中,实际上只有支持向量的项被计算了。其他所有样本( α i = 0 \alpha_i=0 αi=0)对决策边界的位置没有任何贡献。因此,SVM的决策边界完全由这些关键的“支持向量”支撑起来,这也是其名称的由来。这个特性是对偶理论带来的一个直接且优美的结果。

相关文章:

  • Leetcode 3598. Longest Common Prefix Between Adjacent Strings After Removals
  • 滑块验证码(1)
  • 【blender】使用bpy对一个obj的不同mesh进行不同的材质贴图(涉及对bmesh的操作)
  • ViTMatte:利用预训练的基础视觉Transformer提升图像抠图性能
  • 云计算在布莱克-斯科尔斯模型中的应用:解析解、蒙特卡洛模拟与可视化-AI云计算数值分析和代码验证
  • Node.js特训专栏-实战进阶:11. Redis缓存策略与应用场景
  • 【更新至2024年】1999-2024年各省城镇居民人均消费支出数据(无缺失)
  • 八股文——JAVA基础:String s1 = new String(“abc“);这句话创建了几个字符串对象?
  • window11 本地安装 MySQL8.0
  • SAP顾问职位汇总(第26周)
  • 数据分析标普500
  • 实现win系统控制局域网的linux主机桌面
  • 现代 JavaScript (ES6+) 入门到实战(三):字符串与对象的魔法升级—模板字符串/结构赋值/展开运算符
  • 知攻善防靶机 Windows 挖矿事件应急
  • 通过交互式网页探索传输现象-AI云计算数值分析和代码验证
  • 博图SCL编程利器:CASE OF 语句详解与应用指南之设备运行模式选择框架
  • pytorch学习—4.反向传播(用pytorch算梯度)
  • 设备预测性维护和异常检测系统设计方案
  • 什么是 Event Loop?
  • 自然语言处理NLP期末复习