当前位置：首页 > news >正文

从感知器准则到最小平方误差准则——与神经网络的发展类比

news 来源：原创 2025/6/24 1:45:34

与神经网络的发展类比

感知器准则	$\rightarrow$	最小平方误差判别
$∣∣$	$\downarrow$ 神经网络，误差反馈学习	$∣∣$
感知器模型（误差反馈学习）	$\rightarrow$	线性神经单元（梯度下降法）

在线性不可分的情况下，不等式组
$\boldsymbol{\theta}^{\rm T} \boldsymbol{z}_i > 0, \quad i = 1, 2, \cdots, N \tag{1}$
不可能同时满足。一种直观的想法就是，希望求解一个 $\boldsymbol{\theta}$ 使被错分的样本尽可能少，即不满足不等式 (1) 的样本尽可能少，这种方法是通过解线性不等式组来最小化错分样本数目，通常采用搜索算法求解。

但是，求解线性不等式组有时并不方便，为了避免此问题，可以引进一系列待定的常数，把不等式组 (1) 转变成下列方程组
$\boldsymbol{\theta}^{\rm T} \boldsymbol{z}_i = y_i > 0, \quad i = 1, 2, \cdots, N$

或写成矩阵形式
$\boldsymbol{Z} \boldsymbol{\theta} = \boldsymbol{y}$

假设一组 $d$ 维样本集 $\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n$ ，其中 $n_1$ 个属于 $C_1$ 类的样本记为子集 $\mathcal{D}_1$ , $n_2$ 个属于 $C_2$ 类的样本记为子集 $\mathcal{D}_2$ 。进一步，假设一个从 $\boldsymbol{x}_i$ 生成的样本 $\boldsymbol{z}_i$ ，它通过加上一个阈值分量 $x_0 \equiv 1$ 而得到“增广样本向量”。而且如果它被归为 $C_2$ ，那么整个模式向量都乘以 $- 1$ ，也就是“规范化”操作。不失一般性，可以假设前 $n_1$ 个样本属于 $C_1$ ，后 $n_2$ 个样本属于 $C_2$ 。这样矩阵 $\boldsymbol{Z}$ 就可以写成分块矩阵
$\boldsymbol{Z}= \begin{bmatrix} \boldsymbol{1}_1 & \boldsymbol{X}_1 \\ -\boldsymbol{1}_2 & -\boldsymbol{X}_2 \end{bmatrix}$
其中， $\boldsymbol{1}_i$ 是 $n_i$ 个 1 的列向量， $\boldsymbol{X}_i$ 是一个 $n_i \times d$ 矩阵，它的行是属于 $C_i$ 的样本。

同样将 $\boldsymbol{\theta}$ 和 $\boldsymbol{y}$ 分块：
$\boldsymbol{\theta} = \begin{bmatrix} w_0 \\ \boldsymbol{w} \end{bmatrix}$
且
$\boldsymbol{y} = \begin{bmatrix} \boldsymbol{1}_1 \\ \boldsymbol{1}_2 \end{bmatrix}$
同样地，负号可以放在右端项
$\boldsymbol{Z}= \begin{bmatrix} \boldsymbol{1}_1 & \boldsymbol{X}_1 \\ \boldsymbol{1}_2 & \boldsymbol{X}_2 \end{bmatrix}$
$\boldsymbol{y} = \begin{bmatrix} \boldsymbol{1}_1 \\ -\boldsymbol{1}_2 \end{bmatrix}$

从此， $\boldsymbol{y}$ 就有了新的物理解释，可以看成是类别标记，对于 $Y = 1$ 的类别，标记为1，对于 $Y = - 1$ 的类别，标记为-1。从样本点 ${C_1, C_2\}$ 到数值的映射。统计学模型中经常描述的样本划分，因此用样本点表示。机器学习因为是从输入到输出的映射，因此用数值表示类别标记。（注：凡事把C_1, C_2当集合的，都是概念不清，因为Duda用的 $\omega_1$ , $\omega_2$ ，但Duda数学功底扎实，没有数学概念错误，某人誊抄他的，自以为聪明的用了集合语言）

为了表述方便，仍用 $\boldsymbol{X}$ 表示规范化增广样本矩阵， ${\bm w}$ 表示增广权向量。最小二乘准则寻找解向量 ${\bm w}$ ，使误差的平方和最小
$J_{S} \left( {\bm w} \right) = \lVert {\bm e} \rVert^2_2 = \lVert {\bm y} - {{\bm X}} {\bm w}\rVert^2_2 = \sum\limits_{i=1}^{n} \left( {\bm y}_i - {\bm w}^{\rm T} {\bm x}_i \right)^2$