当前位置：首页 > news >正文

机器学习12——支持向量机中

news 2025/11/11 0:01:33

支持向量机中

拉格朗日对偶方法（Lagrange Duality）

初始问题（Primal form）

目标是：
$\min_{\mathbf{w}, b} \quad \frac{1}{2} \|\mathbf{w}\|^2$
约束条件：
$y_i(\mathbf{w}^T \mathbf{x}_i + b) \geq 1, \quad \forall i = 1, \dots, l$

引入拉格朗日乘子法（Lagrangian）

这是一个典型的带有不等式约束的优化问题，我们引入拉格朗日函数：

定义拉格朗日函数（Lagrangian）：
$L(\mathbf{w}, b; \boldsymbol{\lambda}) = \frac{1}{2}\|\mathbf{w}\|^2 - \sum_{i=1}^{l} \lambda_i\left[y_i(\mathbf{w}^T \mathbf{x}_i + b) - 1\right]$

为什么可以把原问题变成:
$\min_{w,b} \max_{\alpha \ge 0} L(w, b, \alpha)$
这是凸优化中的鞍点问题（Saddle Point）。原因有两个：

函数关于 $w, b$ 是凸的，因为 $w|^2$ 是一个凸函数；
函数关于 $α\alpha$ 是线性的，也就是说关于 $α\alpha$ 是凹的（线性函数既是凸也是凹）；

所以这个问题是一个凸-凹问题（convex-concave problem），满足一些条件（例如Slater条件）后，就满足所谓的强对偶性（后面再讲）。

于是，原问题（有约束）可以等价写成一个无约束的 min-max 问题。

其中每个 $λi≥0\lambda_i \geq 0$ 是拉格朗日乘子。我们需要Minimize it w.r.t $w&b\mathbf{w} \& \mathbf{b}$ , while maximize it w.r.t. $Λ\Lambda$ . 这是一个minmax问题。

带不等式约束的拉格朗日乘子法见附录

min-max问题见附录

根据min-max和max-min相等的成立条件：

我们将min-max问题转化为max-min问题：
$\min_{w,b} \max_{\alpha \ge 0} L(w, b, \alpha) \Rightarrow \max_{\alpha \ge 0} \min_{w,b} L(w, b, \alpha)$

$\begin{array}{cl} \text { Maximize } & L\left(\mathbf{w}^*, b^* ; \Lambda\right) \\ \text { Subject to } & \nabla_{\mathrm{w}, b} L(\mathbf{w}, b ; \Lambda)=\mathbf{0} \\ & \lambda_i \geq 0, \quad i=1, \mathrm{~K}, l \end{array}$

max在外层，min在内层，因此我们需要先求内层导数，得到最小值，再带入式子求外层的最大值。

为什么可以交换 $min⁡\min$ 和 $max⁡\max$ 的顺序？

这就用到了凸优化中的强对偶性理论：

弱对偶性总是成立： $min⁡max⁡≥max⁡min⁡\min \max \ge \max \min$
强对偶性在满足一定条件（凸性 + Slater 条件）时成立： $min⁡max⁡=max⁡min⁡\min \max = \max \min$

SVM满足这些条件，所以我们可以安全地交换顺序。

求偏导数得到最优解：

$\begin{gathered} L(\mathbf{w}, b ; \Lambda)=\frac{1}{2}\|\mathbf{w}\|^2-\sum_{i=1}^l \lambda_i y_i\left(\mathbf{w}^T \mathbf{x}_i+b\right)+\sum_{i=1}^l \lambda_i \\ \nabla_{\mathrm{w}} L(\mathbf{w}, b ; \Lambda)=\mathbf{w}-\sum_{i=1}^l \lambda_i y_i \mathbf{x}_i=\mathbf{0} \quad \longrightarrow \quad \mathbf{w}^*=\sum_{i=1}^l \lambda_i y_i \mathbf{x}_i \\ \nabla_b L(\mathbf{w}, b ; \Lambda)=\sum_{i=1}^l \lambda_i y_i=0 \quad \longrightarrow \quad \sum_{i=1}^l \lambda_i y_i=0 \end{gathered}$

构建对偶问题（Dual Problem）

将 $w∗\mathbf{w}^*$ 代入原始拉格朗日函数，得到一个只与 $λi\lambda_i$ 有关的函数：
$\begin{aligned} L\left(\mathbf{w}^*, b^* ; \Lambda\right) & =\frac{1}{2}\left(\sum_{i=1}^l \lambda_i y_i \mathbf{x}_i\right)^T \sum_{i=1}^l \lambda_i y_i \mathbf{x}_i-\left(\sum_{i=1}^l \lambda_i y_i \mathbf{x}_i\right)^T \sum_{i=1}^l \lambda_i y_i \mathbf{x}_i-b \sum_{i=1}^l \lambda_i y_i+\sum_{i=1}^l \lambda_i \\ & =\sum_{i=1}^l \lambda_i-\frac{1}{2}\left(\sum_{i=1}^l \lambda_i y_i \mathbf{x}_i\right)^T \sum_{i=1}^l \lambda_i y_i \mathbf{x}_i \\ & =\sum_{i=1}^l \lambda_i-\frac{1}{2} \sum_{i=1}^l \sum_{j=1}^l \lambda_i \lambda_j y_i y_j<\mathbf{x}_i \mathbf{x}_j> \end{aligned}$
对偶目标函数：
$L(\mathbf{w}^*, b; \boldsymbol{\lambda}) = \sum_{i=1}^{l} \lambda_i - \frac{1}{2} \sum_{i=1}^{l} \sum_{j=1}^{l} \lambda_i \lambda_j y_i y_j \langle \mathbf{x}_i, \mathbf{x}_j \rangle$
即我们要最大化：
$\max_{\boldsymbol{\lambda}} \quad F(\boldsymbol{\lambda}) = \sum_{i=1}^{l} \lambda_i - \frac{1}{2} \sum_{i=1}^{l} \sum_{j=1}^{l} \lambda_i \lambda_j y_i y_j \langle \mathbf{x}_i, \mathbf{x}_j \rangle$
对偶问题的约束条件：
$\lambda_i \geq 0,\quad \sum_{i=1}^{l} \lambda_i y_i = 0$
这是一个凸二次规划问题，具有全局最优解。

最终解的表达

将 $w∗\mathbf{w}^*$ 和 $∑λiyi=0\sum \lambda_i y_i = 0$ 代入 $L$ ，消去 $w\mathbf{w}$ 和 $b$ ：
$L(\mathbf{w}^*, b^*, \Lambda) = \frac{1}{2} \left\| \sum_{i=1}^l \lambda_i y_i \mathbf{x}_i \right\|^2 - \sum_{i=1}^l \lambda_i y_i \left( \left( \sum_{j=1}^l \lambda_j y_j \mathbf{x}_j \right)^T \mathbf{x}_i + b \right) + \sum_{i=1}^l \lambda_i$
利用 $∑λiyi=0\sum \lambda_i y_i = 0$ ，含 $b$ 的项消失，化简后：
$L(\Lambda) = \sum_{i=1}^l \lambda_i - \frac{1}{2} \sum_{i=1}^l \sum_{j=1}^l \lambda_i \lambda_j y_i y_j \mathbf{x}_i^T \mathbf{x}_j$
对偶问题的形式

最大化 $L(Λ)L(\Lambda)$ 受限于 $λi≥0\lambda_i \geq 0$ 和 $∑λiyi=0\sum \lambda_i y_i = 0$ ：
$\max_{\Lambda} \left( \sum_{i=1}^l \lambda_i - \frac{1}{2} \sum_{i,j} \lambda_i \lambda_j y_i y_j \mathbf{x}_i^T \mathbf{x}_j \right) \quad \text{s.t.} \quad \lambda_i \geq 0, \quad \sum_{i=1}^l \lambda_i y_i = 0$
写成矩阵形式（定义格拉姆矩阵 $Dij=yiyjxiTxjD_{ij} = y_i y_j \mathbf{x}_i^T \mathbf{x}_j$ ）：
$\max_{\Lambda} \left( \Lambda^T \mathbf{1} - \frac{1}{2} \Lambda^T D \Lambda \right)$
如何求解 $λ\lambda$ ？

这是一个带线性约束的二次规划（QP）问题，常用解法包括：

（1）序列最小优化（SMO）算法

每次选择两个变量 $λi\lambda_i$ 和 $λj\lambda_j$ ，固定其他变量，解析求解子问题。
通过反复迭代满足 KKT 条件（例如， $λi=0\lambda_i = 0$ 对应非支持向量， $λi>0\lambda_i > 0$ 对应支持向量）。

（2）数值优化方法

使用梯度上升法或内点法求解，但需处理约束 $λi≥0\lambda_i \geq 0$ 和 $∑λiyi=0\sum \lambda_i y_i = 0$ 。

（3）KKT 条件

解需满足以下条件：
$\begin{cases} \lambda_i \geq 0, \\ y_i (\mathbf{w}^T \mathbf{x}_i + b) - 1 \geq 0, \\ \lambda_i \left( y_i (\mathbf{w}^T \mathbf{x}_i + b) - 1 \right) = 0. \end{cases}$

支持向量： $λi>0\lambda_i > 0$ 对应的样本点满足 $yi(wTxi+b)=1y_i (\mathbf{w}^T \mathbf{x}_i + b) = 1$ （位于间隔边界上）。
非支持向量： $λi=0\lambda_i = 0$ ，对模型无贡献。

对于带不等式约束的凸优化问题，最优解必须满足 KKT 条件：

原始可行性（Primal Feasibility）：
$y_i (\mathbf{w}^T \mathbf{x}_i + b) - 1 \geq 0, \quad \forall i$

对偶可行性（Dual Feasibility）：
$\lambda_i \geq 0, \quad \forall i$

梯度为零（Stationarity）：
$\nabla_{\mathbf{w}} L = 0 \quad \text{和} \quad \nabla_b L = 0$

互补松弛（Complementary Slackness）：
$\lambda_i \left( y_i (\mathbf{w}^T \mathbf{x}_i + b) - 1 \right) = 0, \quad \forall i$

解得 $λi∗\lambda_i^*$ 后，我们可以得到：

权重向量：
$\mathbf{w}^* = \sum_{i=1}^{l} \lambda_i^* y_i \mathbf{x}_i$
偏置 $b^*$ ：

对于任意满足 $\lambda_i^* < C$ 的支持向量（ $i$ 是支持向量），我们有：
$b^* = y_i - \mathbf{w}^{*T} \mathbf{x}_i$

SVM 分类决策函数

在支持向量机（SVM）中，最终的分类决策函数可以表示为：
$f(\mathbf{x}) = \text{sgn}\left( \sum_{\lambda_i^* \neq 0} \lambda_i^* y_i \langle \mathbf{x}_i, \mathbf{x} \rangle + b^* \right)$
其中：

$λi∗\lambda_i^*$ 是拉格朗日乘子的最优解（仅对支持向量非零）。
$y_i$ 是支持向量的标签（ $+ 1$ 或 $- 1$ ）。
$⟨xi,x⟩\langle \mathbf{x}_i, \mathbf{x} \rangle$ 是支持向量 $xi\mathbf{x}_i$ 和新样本 $x\mathbf{x}$ 的内积（相似性度量）。
$b^*$ 是偏移项（bias）。

分类过程详解

(1) 计算新样本与支持向量的相似性
$\langle \mathbf{x}_i, \mathbf{x} \rangle = \mathbf{x}_i^T \mathbf{x}$

这是 点积（内积），衡量 $x\mathbf{x}$ 与支持向量 $xi\mathbf{x}_i$ 的相似性。
在核函数扩展中，可以替换为 $K(xi,x)K(\mathbf{x}_i, \mathbf{x})$ （如高斯核、多项式核）。

(2) 加权求和
$\sum_{\lambda_i^* \neq 0} \lambda_i^* y_i \langle \mathbf{x}_i, \mathbf{x} \rangle$

每个支持向量 $xi\mathbf{x}_i$ 的贡献由其 拉格朗日乘子 $λi∗\lambda_i^*$ 和 标签 $y_i$ 加权。
相似性越高（ $⟨xi,x⟩\langle \mathbf{x}_i, \mathbf{x} \rangle$ 越大），且 $λi∗yi\lambda_i^* y_i$ 越大，对分类的影响越大。

(3) 加上偏移项 $b^*$
$b^* = y_k - \mathbf{w}^{*T} \mathbf{x}_k \quad \text{（任选一个支持向量 $\mathbf{x}_k$ 计算）}$

$\begin{aligned} & y_k\left(\boldsymbol{w}^T \boldsymbol{x}_k+b\right)=1 \\ & \rightarrow y_k^2\left(\boldsymbol{w}^T \boldsymbol{x}_k+b\right)-y_k \\ & \rightarrow\left(\boldsymbol{w}^T \boldsymbol{x}_k+b\right)-y_k \\ & \Rightarrow b=y_k-\boldsymbol{w}^T \boldsymbol{x}_k \end{aligned}$

由于 $y_k$ ∈{−1,+1}，其平方为 1，即 $y_k^2=1$ 。

确保决策超平面正确偏移，使得支持向量满足 $yi(w∗Txi+b∗)=1y_i (\mathbf{w}^{*T} \mathbf{x}_i + b^*) = 1$ 。

(4) 符号函数 $sgn(⋅)\text{sgn}(\cdot)$
$\text{sgn}(z) = \begin{cases} +1 & \text{if } z > 0, \\ -1 & \text{if } z < 0. \end{cases}$

最终输出 $+ 1$ 或 $- 1$ ，表示分类结果。

直观解释

(1) 支持向量的作用

决策边界仅由支持向量决定，其他样本不影响分类。
支持向量是离决策超平面最近的样本，决定了最大间隔。

(2) 相似性度量

$⟨xi,x⟩\langle \mathbf{x}_i, \mathbf{x} \rangle$ 衡量新样本 $x\mathbf{x}$ 与支持向量 $xi\mathbf{x}_i$ 的相似性。
如果 $x\mathbf{x}$ 与某个支持向量 $xi\mathbf{x}_i$ 高度相似（内积大），且 $y_i = +1$ ，则倾向于分类为 $+ 1$ 。

(3) 稀疏性

由于大多数 $λi∗=0\lambda_i^* = 0$ ，SVM 的预测仅依赖少量支持向量，计算高效。

线性支持向量机（Linear SVM）—— 非线性可分情况

松弛变量 $ξi\xi_i$ 的作用

$\begin{aligned} & \quad \mathbf{w} \mathbf{x}_i+b \geq+1-\xi_i \text { for } y_i=+1 \\ & \quad \mathbf{w} \mathbf{x}_i+b \leq-1+\xi_i \text { for } y_i=-1 \\ & \equiv y_i\left(\mathbf{w} \mathbf{x}_i+b\right)-1+\xi_i \geq 0 \quad \forall i \\ & \quad \xi_i \geq 0 \quad \forall i \end{aligned}$

$ξi=0\xi_i = 0$ ：样本 $i$ 被正确分类，且位于间隔边界之外（完全满足约束）。
$\xi_i < 1$ ：样本 $i$ 被正确分类，但位于间隔内部（违反硬间隔约束）。
$ξi≥1\xi_i \geq 1$ ：样本 $i$ 被误分类（严重违反约束）。

在这里插入图片描述

数学建模（Mathematical Formulation）

优化目标

$\begin{aligned} \text { Minimize } & \frac{1}{2}\|\mathbf{w}\|^2+C\left(\sum_i \xi_i\right)^k \\ \text { Subject to } & y_i\left(\mathbf{w}^T \mathbf{x}_i+b\right)-1+\xi_i \geq 0 \quad \forall i \\ & \xi_i \geq 0 \quad \forall i \end{aligned}$

$12∥w∥2\frac{1}{2} \|\mathbf{w}\|^2$ ：最大化间隔（与硬间隔 SVM 相同）。
$\sum_{i} \xi_i$ ：对分类错误的惩罚项。为了简化，考虑取k=1。
- $ξi\xi_i$ 是 松弛变量，表示第 $i$ 个样本允许的违规程度。
- $C > 0$ 是 惩罚参数，控制对误分类的容忍度：
  - $C$ 越大，模型越严格（更少误分类，但可能过拟合）。
  - $C$ 越小，模型越宽松（允许更多误分类，提高泛化能力）。

约束条件

$\begin{cases} y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, \quad \forall i \quad &\text{(允许样本在间隔内或误分类)} \\ \xi_i \geq 0, \quad \forall i \quad &\text{(松弛变量非负)} \end{cases}$

这么建模的原因是，当数据整体上线性可分，但存在一些噪声点时候，就需要这样的soft margin。
其实从拉格朗日乘子法的角度来理解，这两个约束条件是不等式约束KKT条件的一部分。

引入拉格朗日函数

引入拉格朗日乘子 $λi≥0\lambda_i \geq 0$ （对应样本约束）和 $μi≥0\mu_i \geq 0$ （对应 $ξi≥0\xi_i \geq 0$ ），构建拉格朗日函数：
$L(\mathbf{w}, b, \xi, \lambda, \mu) = \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^n \xi_i - \sum_{i=1}^n \lambda_i \left[ y_i (\mathbf{w}^T \mathbf{x}_i + b) - 1 + \xi_i \right] - \sum_{i=1}^n \mu_i \xi_i$
原问题：
$\begin{aligned} \text { Minimize } & \frac{1}{2}\|\mathbf{w}\|^2+C \sum_i \xi_i \\ \text { Subject to } & y_i\left(\mathbf{w}^T \mathbf{x}_i+b\right)-1+\xi_i \geq 0 \quad \forall i \\ & \xi_i \geq 0 \quad \forall i \end{aligned}$
转化为：
$\begin{array}{cl} \text { Maximize } & L\left(\mathbf{w}^*, b^*, \Xi^* ; \Lambda, \mathbf{M}\right) \\ \text { Subject to } & \nabla_{\mathbf{w}, b, \Xi} L(\mathbf{w}, b, \Xi ; \Lambda, \mathbf{M})=0 \\ & \Lambda \geq \mathbf{0}, \mathbf{M} \geq \mathbf{0} \end{array}$
梯度为零（Stationarity）：
$\nabla_{\mathbf{w}} L = \mathbf{w} - \sum_{i=1}^n \lambda_i y_i \mathbf{x}_i = 0 \quad \Rightarrow \quad \mathbf{w}^* = \sum_{i=1}^n \lambda_i y_i \mathbf{x}_i$

$\nabla_b L = -\sum_{i=1}^n \lambda_i y_i = 0 \quad \Rightarrow \quad \sum_{i=1}^n \lambda_i y_i = 0$

$\nabla_{\xi_i} L = C - \lambda_i - \mu_i = 0 \quad \Rightarrow \quad \lambda_i + \mu_i = C$

通过消去 $w\mathbf{w}$ 、 $b$ 和 $ξi\xi_i$ ，得到对偶问题：
$\begin{aligned} \max_{\lambda} \quad & \sum_{i=1}^n \lambda_i - \frac{1}{2} \sum_{i,j=1}^n \lambda_i \lambda_j y_i y_j \mathbf{x}_i^T \mathbf{x}_j \\ \text{s.t.} \quad & \sum_{i=1}^n \lambda_i y_i = 0, \\ & 0 \leq \lambda_i \leq C \quad (\text{由} \ \mu_i = C - \lambda_i \geq 0 \ \text{导出}) \end{aligned}$
写成矩阵形式：
$\begin{array}{cl} \text { Maximize } & F(\Lambda)=\Lambda \cdot 1-\frac{1}{2} \Lambda^T D \Lambda \\ \text { Subject to } & \Lambda^T \mathbf{y}=0 \\ & \mathbf{0} \leq \Lambda \leq C \mathbf{1} \end{array}$
KKT 条件

最优解需满足以下条件：

梯度为零（Stationarity）：
$\nabla_{\mathbf{w}} L = \mathbf{w} - \sum_{i=1}^n \lambda_i y_i \mathbf{x}_i = 0 \quad \Rightarrow \quad \mathbf{w}^* = \sum_{i=1}^n \lambda_i y_i \mathbf{x}_i$

$\nabla_b L = -\sum_{i=1}^n \lambda_i y_i = 0 \quad \Rightarrow \quad \sum_{i=1}^n \lambda_i y_i = 0$

$\nabla_{\xi_i} L = C - \lambda_i - \mu_i = 0 \quad \Rightarrow \quad \lambda_i + \mu_i = C$
原始可行性与对偶可行性：
$y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad \lambda_i \geq 0, \quad \mu_i \geq 0$
互补松弛条件：
$\lambda_i \left[ y_i (\mathbf{w}^T \mathbf{x}_i + b) - 1 + \xi_i \right] = 0$

$\mu_i \xi_i = 0$

得到 $λ\lambda$ 的解后得到原问题的解：
$\begin{array}{ll} \mathbf{w}^*=\sum_{i=1}^l \lambda_i^* y_i \mathbf{x}_i \\ b^*=y_i-\mathbf{w}^{* T} \mathbf{x}_i, & 0<\lambda_i<C \end{array}$

仅当 $\lambda_i < C$ 时，样本为支持向量（位于间隔边界上）。
$\xi_i=\max \left[0,1-y_i\left(\mathbf{w}^* \mathbf{x}_i+b^*\right)\right]$

如果 $ξi>1\xi_i>1$ .那么这是一种错误的分类模式

分类器：
$\begin{aligned} f(\mathbf{x}) & =\operatorname{sgn}\left(\mathbf{w}^{*^T} \mathbf{x}+b^*\right) \\ & =\operatorname{sgn}\left(\sum_{i=1}^l \lambda_i^* y_i<\mathbf{x}_i, \mathbf{x}>+b^*\right) \\ & =\operatorname{sgn}\left(\sum_{\lambda_i^* \neq 0} \lambda_i^* y_i<\mathbf{x}_i, \mathbf{x}>+b^*\right) \end{aligned}$