当前位置：首页 > news >正文

机器学习：支持向量机（SVM）详解

news 2025/11/10 8:46:48

📘 一、简介：什么是 SVM？

支持向量机（Support Vector Machine, SVM） 是一种经典的监督学习算法，最初由 Vladimir Vapnik 及其同事在 20 世纪 90 年代提出。它主要用于二分类任务，也可通过扩展用于多分类和回归（称为 SVR）。

核心思想

SVM 不是简单地“拟合数据”，而是致力于寻找一个最优决策边界（称为超平面），使得不同类别的样本被尽可能清晰地分开，并且两类之间的间隔（margin）最大化。这种“最大间隔”策略赋予 SVM 强大的泛化能力，尤其在小样本、高维场景下表现优异。

为什么叫“支持向量”？

决策边界仅由靠近边界的少数关键样本决定，这些样本称为支持向量（Support Vectors）。
其余样本即使删除，也不影响最终模型——这使得 SVM 模型紧凑且高效。

应用领域

文本分类（如垃圾邮件检测）
图像识别（如手写数字识别）
生物信息学（基因表达分析）
金融风控（信用评分）

✅ SVM 的优势：理论扎实、泛化能力强、对高维数据友好。
⚠️ 局限性：训练复杂度高（不适合超大规模数据）、对噪声敏感、需特征缩放。

📘 二、数学原理

2.1 硬间隔 SVM（线性可分）

目标：找到超平面 $\mathbf{w}^\top \mathbf{x} + b = 0$ ，

满足： $y_i (\mathbf{w}^\top \mathbf{x}i + b) \geq 1, \quad \forall i$ 并最大化间隔 $\frac{2}{|\mathbf{w}|}$ ，

等价于最小化： $\min{\mathbf{w}, b} \frac{1}{2} |\mathbf{w}|^2$

2.2 软间隔 SVM（处理噪声与不可分）

引入松弛变量 $\xi_i \geq 0$ ，允许部分误分类： $\begin{aligned} \min_{\mathbf{w}, b, \boldsymbol{\xi}} \quad & \frac{1}{2} |\mathbf{w}|^2 + C \sum_{i=1}^n \xi_i \ \text{s.t.} \quad & y_i (\mathbf{w}^\top \mathbf{x}_i + b) \geq 1 - \xi_i \ & \xi_i \geq 0 \end{aligned}$

(C)：控制对误分类的惩罚强度（越大越不容忍错误）。

2.3 对偶问题与核技巧

通过对偶变换，得到： $f(\mathbf{x}) = \text{sign}\left( \sum_{i=1}^n \alpha_i y_i K(\mathbf{x}_i, \mathbf{x}) + b \right)$ 其中：

$\alpha_i$ 是拉格朗日乘子，仅支持向量的 (\alpha_i > 0)；
$K(\cdot, \cdot)$ 是核函数，用于处理非线性问题。

📊 三、核函数选择指南

核函数	公式	适用场景	超参数
线性核	$K(\mathbf{x}_i, \mathbf{x}_j) = \mathbf{x}_i^\top \mathbf{x}_j$	高维稀疏数据（如文本）	无
RBF（高斯核）	$K = \exp(-\gamma \|\mathbf{x}_i - \mathbf{x}_j\|^2)$	默认首选，通用非线性	$\gamma$
多项式核	$K = (\gamma \mathbf{x}_i^\top \mathbf{x}_j + r)^d$	已知特征有交互关系	$\gamma, r, d$
Sigmoid核	$K = \tanh(\gamma \mathbf{x}_i^\top \mathbf{x}_j + r)$	类神经网络，但不稳定	$\gamma, r$

调参建议

先标准化数据（SVM 对尺度敏感！）
小数据 + 非线性 → RBF + GridSearchCV
高维数据（如 NLP）→ LinearSVC（更快更稳）

💻 四、代码实现

4.1 使用 scikit-learn（推荐）

from sklearn import datasets
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report# 加载数据
X, y = datasets.make_classification(n_samples=1000, n_features=20, random_state=42)# 划分 + 标准化
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)# 训练（RBF 核）
svm = SVC(kernel='rbf', C=1.0, gamma='scale')
svm.fit(X_train, y_train)# 评估
y_pred = svm.predict(X_test)
print(classification_report(y_test, y_pred))

4.2 超参数调优

param_grid = {'C': [0.1, 1, 10], 'gamma': ['scale', 0.01, 0.1, 1]}
grid = GridSearchCV(SVC(kernel='rbf'), param_grid, cv=5)
grid.fit(X_train, y_train)
print("Best params:", grid.best_params_)

4.3 大规模线性 SVM（高效版）

from sklearn.svm import LinearSVC
# 适用于高维稀疏数据（如文本）
clf = LinearSVC(C=1.0, dual=False)  # dual=False 当 n_samples > n_features
clf.fit(X_train, y_train)

✅ 总结：SVM 使用最佳实践

步骤	操作
1. 数据预处理	标准化（`StandardScaler`）
2. 选择核函数	高维 → 线性；低维非线性 → RBF
3. 调参	用 `GridSearchCV` 调 `C` 和 `gamma`
4. 多分类	自动使用 one-vs-one（SVC）或 one-vs-rest（LinearSVC）
5. 大数据	考虑 `LinearSVC` 或改用随机森林/XGBoost