当前位置：首页 > news >正文

python学智能算法（二十七）|SVM-拉格朗日函数求解上

news 2025/7/27 15:07:21

【1】引言

前序学习进程中，我们已经掌握了支持向量机算法中，为寻找最佳分割超平面，如何用向量表达超平面方程，如何为超平面方程建立拉格朗日函数。
本篇文章的学习目标是：求解SVM拉格朗日函数。

【2】求解方法

【2.1】待求解函数

支持量机算法的拉格朗日函数为：
$L(w,b,α)=12∥w∥2−∑i=1mαi[yi(w⋅xi+b−1)]L(w,b,\alpha)=\frac{1}{2}{\left\|w\right\|}^2-\sum_{i=1}^{m}\alpha_{i}[y_{i}(w\cdot x_{i}+b-1)]$

【2.2】函数求导

按照一贯的求解思路，先对拉格朗日函数进行求导：

【2.2.1】对w求导

$∂L∂w=∂∂w[12wTw−∑i=1mαiyiwTxi]\frac{\partial L}{\partial w}=\frac{\partial }{\partial w}[{\frac{1}{2}w^Tw}-\sum_{i=1}^{m}\alpha_{i}y_{i}w^Tx_{i}]$
细心观察的朋友肯定发现上式出现了权重矩阵w的转置 $w^T$ ，这是因为：
在之前的所有公式的写法中，我对w和x/的矩阵乘法都沿用了最为稳妥的写法 $w⋅xw\cdot x$ 。在机器学习领域，一般默认的向量形式为列向量，所以 $w$ 和 $x_{i}$ 可能都是列向量，实际做矩阵乘法的时候，需要转置其中一个，实际的超平面式简写后为
$w^Tx+b=0$ 或者 $wx^T+b=0$ 这两种写法完全等效。
在求导的时候，必须选择上述写法中的任何一个，这里选择了 $w^Tx_{i}+b=0$ ，是为了和 $12∥w∥2=12wTw\frac{1}{2}{\left\|w\right\|}^2=\frac{1}{2}w^Tw$ 保持一致。
继续求解导数：
$∂L∂w=∂∂w[12wTw−∑i=1mαiyiwTxi]=w−∑i=1mαiyixi\frac{\partial L}{\partial w}=\frac{\partial }{\partial w}[{\frac{1}{2}w^Tw}-\sum_{i=1}^{m}\alpha_{i}y_{i}w^Tx_{i}]=w-\sum_{i=1}^{m}\alpha_{i}y_{i}x_{i}$

【2.2.2】对b求导

$∂L∂b=−∑i=1mαiyi\frac{\partial L}{\partial b}=-\sum_{i=1}^{m}\alpha_{i}y_{i}$

【2.3】极值代入

令前两步的导数为0，首先：
$∂L∂w=w−∑i=1mαiyixi=0\frac{\partial L}{\partial w}=w-\sum_{i=1}^{m}\alpha_{i}y_{i}x_{i}=0$ 可得：
$w=∑i=1mαiyixiw=\sum_{i=1}^{m}\alpha_{i}y_{i}x_{i}$
然后：
$∂L∂b=−∑i=1mαiyi=0\frac{\partial L}{\partial b}=-\sum_{i=1}^{m}\alpha_{i}y_{i}=0$
可得：
$∑i=1mαiyi=0\sum_{i=1}^{m}\alpha_{i}y_{i}=0$ 将上数值代入拉格朗日函数有：
第一项：
$12∥w∥2=12wTw=12(∑i=1mαiyixi)T∑i=1mαjyjxj=12∑i,j=1mαiαjyiyjxiTxj\frac{1}{2}{\left\|w\right\|}^2=\frac{1}{2}w^Tw=\frac{1}{2}({\sum_{i=1}^{m}\alpha_{i}y_{i}x_{i})^T}\sum_{i=1}^{m}\alpha_{j}y_{j}x_{j}=\frac{1}{2}\sum_{i,j=1}^{m}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}^Tx_{j}$
第二项：
$∑i=1mαiyiwTxi=∑i=1mαiyi(∑j=1mαjyjxi)Txi=∑i=1mαiyi(∑j=1mαjyjxjT)xi=∑i,j=1mαiαjyiyjxjTxi\begin{align*}\sum_{i=1}^{m}\alpha_{i}y_{i}w^Tx_{i}=\\ \sum_{i=1}^{m}\alpha_{i}y_{i}(\sum_{j=1}^{m}\alpha_{j}y_{j}x_{i})^Tx_{i}=\sum_{i=1}^{m}\alpha_{i}y_{i}(\sum_{j=1}^{m}\alpha_{j}y_{j}x_{j}^T)x_{i}\\=\sum_{i,j=1}^{m}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{j}^Tx_{i}\end{align*}$
第三项：
$∑i=1mαiyib=b∑i=1mαiyi=0\sum_{i=1}^{m}\alpha_{i}y_{i}b=b\sum_{i=1}^{m}\alpha_{i}y_{i}=0$
第四项：
$∑i=1mαi⋅1=∑i=1mαi\sum_{i=1}^{m}\alpha_{i}\cdot 1=\sum_{i=1}^{m}\alpha_{i}$

将上述四项叠加后，得到：
$L(w,b,α)=∑i=1mαi−12∑i,j=1mαiαjyiyjxiTxjL(w,b,\alpha)=\sum_{i=1}^{m}\alpha_{i}-\frac{1}{2}\sum_{i,j=1}^{m}\alpha_{i}\alpha_{j}y_{i}y_{j}x_{i}^Tx_{j}$