当前位置：首页 > news >正文

机器学习 [白板推导]（四）[降维]

news 2025/8/23 10:48:04

5. 降维

5.1. 降维的意义

5.1.1. 过拟合问题

通常模型通过训练集数据进行训练，若其测试集的效果明显低于训练集，这是一种不理想的效果，称为过拟合。
过拟合常采用三种方法应对：

采集更多数据，提高模型泛化能力。
正则化，抑制模型拟合能力。
降维，提取数据中的有效信息。
- 直接降维：特征选择
- 线性降维：PCA
- 非线性降维：流形

5.1.2. 维度灾难

从几何角度，若一组数据的特征维度是2，假设两个特征的值都是有上界的，则其构成的样本空间近似一个正方（长）形，数据在这个样本空间中分布。
现在要对这组数据进行分类任务，模型映射到样本空间中变成了一条分隔线，将两个类别的样本分隔到了线的两边。
为了便于从几何角度直观理解维数灾难，我们假设现在的模型分割线是一个圆，则这个分类模型的示意图如下：
在这里插入图片描述
将两个特征归一化，样本空间变为了一个边长为1的正方形，面积为1，模型变成了一个半径小于等于 $\frac{1}{2}$ 的圆，其包含区域面积 $\pi r^2$ 占总空间比例小于等于 $\frac{\pi}{4}$ 。
而当模型维度变高时，例如维度为3，此时归一化的样本空间变成了一个三维立方体，体积为1，模型变成了一个三维球面，其包含区域体积为 $\frac{4\pi}{3}r^2$ ，占总空间比例小于等于 $\frac{\pi}{6}$ 。
当维度继续升高时，模型表示的这个高维超球面包含区域所占总样本空间的超立方体比例将会越来越小，当维度非常大（趋于无穷）时，超球面所包含区域将接近0。
分类边界是一个圆/球面，这是模型内部算法所决定的，而无论这个圆/球面的半径有多大，维度的升高都会导致分类边界仅仅只是样本空间的一个小点，这样的小点也必然无法有好的性能。
现在将分类边界也泛化为任意几何体，模型越复杂，通常这个几何体越复杂，但当模型算法确定后，必然存在某个适宜维度使得该几何体可以在样本空间中很好地完成分类任务，而当维度远远大于该适宜维度时，模型都会不再适用。

5.2. 预备统计知识

现有数据
$\begin{aligned} \text{Data}:X=(\vec{x}_1, \vec{x}_2, \cdots, \vec{x}_n)^T_{N\times p}=\begin{pmatrix} \vec{x}_1^T\\ \vec{x}_2^T\\ \vdots \\ \vec{x}_N^T \end{pmatrix},\tag{5.1} \end{aligned}$

其均值为 $\bar{\vec{x}}=\frac{1}{N}\sum_{i=1}^N\vec{x}_i=\frac{1}{N}X^T\cdot 1_N$ ，其中 $1_N=(1,1,\cdots,1)$ 是一个全一列向量。样本方差为 $S=\frac{1}{N}\sum_{i=1}^N(\vec{x}_i-\bar{\vec{x}})(\vec{x}_i-\bar{\vec{x}})^T$ ，并经过如下推导：
$\begin{aligned} S&=\frac{1}{N}\sum_{i=1}^N(\vec{x}_i-\bar{\vec{x}})(\vec{x}_i-\bar{\vec{x}})^T\\ &=\frac{1}{N}(\vec{x}_1-\bar{\vec{x}}, \vec{x}_2-\bar{\vec{x}}, \cdots, \vec{x}_N-\bar{\vec{x}})\begin{pmatrix} \vec{x}_1^T-\bar{\vec{x}}^T\\ \vec{x}_2^T-\bar{\vec{x}}^T\\ \vdots\\ \vec{x}_N^T-\bar{\vec{x}}^T \end{pmatrix}\\ &=\frac{1}{N}\left (X^T-\bar{\vec{x}}\cdot1_N^T \right )\left (X^T-\bar{\vec{x}}\cdot1_N^T \right )^T\\ &=\frac{1}{N}\left ( X^T-\frac{1}{N}X^T1_N1_N^T \right )\left ( X^T-\frac{1}{N}X^T1_N1_N^T \right )^T\\ &=\frac{1}{N}X^T\left ( I_N-\frac{1}{N}1_N1_N^T \right )\left ( I_N-\frac{1}{N}1_N1_N^T \right )^TX,\tag{5.2} \end{aligned}$

令 $H=I_N-\frac{1}{N}1_N1_N^T$ ，称为中心矩阵，则有 $S=\frac{1}{N}X^THH^TX$ ，易知 $H^T=H$ ，因此逆推可得
$\begin{aligned} H^TX&=HX\\ &=(I_N-\frac{1}{N}1_N1_N^T)X\\ &=X-1_N\bar{\vec{x}}^T=\begin{pmatrix} \vec{x}_1^T-\bar{\vec{x}}^T\\ \vec{x}_2^T-\bar{\vec{x}}^T\\ \vdots \\ \vec{x}_N^T-\bar{\vec{x}}^T \end{pmatrix},\tag{5.3} \end{aligned}$
因此对于任意数据 $X$ ， $H X$ 即为对其进行中心化（每个样本减去均值）。
因为 $H^2=I_N-\frac{2}{N}1_N1_N^T+\frac{1}{N^2}1_N1_N^T1_N1_N^T=I_N-\frac{2}{N}1_N1_N^T+\frac{1}{N}1_N1_N^T=H$ ，因此可进一步化简 $S=\frac{1}{N}X^THX$ ；

5.3. 主成分分析（Principal Component Analysis，PCA）

5.3.1. 核心思想

一个中心：原始特征空间的重构（特征之间从相关到无关），即找到一组线性无关的基，可以将原始特征空间的信息尽可能保留地投影到新空间，新空间特征维数低于原空间，这些基被称为主成分。
两个基本点：
- 最大投影方差
- 最小重构距离

5.3.2. 从最大投影方差看PCA

设一个投影方向 $\vec{\mu}_1$ 为（单位向量），则某个样本 $\vec{x}_i$ 在方向 $\vec{\mu}_1$ 的投影值为 $\vec{x}_i^T\vec{\mu}_1$ 。因此可得，只需找到 $q$ 个基 $U_{p\times q}=(\vec{\mu}_1, \vec{\mu}_2, \cdots, \vec{\mu}_q)$ （相互线性无关， $q < p$ ），则将样本投影到新特征空间的坐标为 $\vec{z}_i^T=\vec{x}_i^TU=\vec{x}_i^T\cdot (\vec{\mu}_1, \vec{\mu}_2, \cdots, \vec{\mu}_q)=(\vec{x}_i^T\vec{\mu}_1, \vec{x}_i^T\vec{\mu}_2, \cdots, \vec{x}_i^T\vec{\mu}_q)$ ，因此特征变换可以记作 $Z_{N\times q}=X_{N\times p}U_{p\times q}$ ，通过这个线性映射即可完成降维。
单看一个投影方向 $\vec{\mu}_1$ ，其投影结果为 $\vec{h}_1=X\vec{\mu}_1$ ，投影均值为 $\bar{h}_1=\frac{1}{N}\sum_{i=1}^Nh_{1i}=\frac{1}{N}\sum_{i=1}^N\vec{x}_i^T\vec{\mu}_1=\bar{\vec{x}}^T\vec{\mu}_1$ ，投影方差为
$\begin{aligned} S_{\vec{h}_1}&=\frac{1}{N}\sum_{i=1}^N(h_{1i}-\bar{h}_1)^2\\ &=\frac{1}{N}\sum_{i=1}^N(\vec{x}_i^T\vec{\mu}_1-\bar{\vec{x}}^T\vec{\mu}_1)^2\\ &=\frac{1}{N}\sum_{i=1}^N\vec{\mu}_1^T(\vec{x}_i-\bar{\vec{x}})(\vec{x}_i-\bar{\vec{x}})^T\vec{\mu}_1\\ &=\vec{\mu}_1^TS\vec{\mu}_1,\tag{5.4} \end{aligned}$

为了最大化投影方差，将寻找的问题定义为一个条件优化问题，即 $\hat{\vec{\mu}}_1=\underset{\vec{\mu}_1}{\argmax}(\vec{\mu}_1^TS\vec{\mu}_1)$ ， $\text{s.t.}\ \vec{\mu}_1^T\vec{\mu}_1=1$ ，利用拉格朗日算子法得 $\mathcal{L} (\vec{\mu}_1,\lambda)=\vec{\mu}_1^TS\vec{\mu}_1+\lambda(1-\vec{\mu}_1^T\vec{\mu} _1)$ ，求导得 $\frac{\partial \mathcal{L} }{\partial \vec{\mu}_1}=2S\vec{\mu}_1-\lambda\cdot 2\vec{\mu}_1$ ，令其为0可得 $S\vec{\mu}_1=\lambda\vec{\mu}_1$ ，因此 $\vec{\mu}_1$ 是原样本方差 $S$ 的特征向量时，投影方差可以被最大化。
因此可以求出投影方差 $S_{\vec{h}_1}=\vec{\mu}_1^TS\vec{\mu}_1=\lambda_1\vec{\mu}_1^T\vec{\mu}_1=\lambda_1$ ，也就是 $\vec{\mu}_1$ 对应的特征值即为投影方差，因此PCA就是对原样本方差矩阵 $S$ 求特征值和特征向量，由于实对称矩阵必可相似对角化，所以必然可以找到 $p$ 个线性无关的特征向量，将其按照特征值大小排序，取前 $q$ 个特征值最大的特征向量作为投影方向，每个样本通过这 $q$ 个投影方向算得新的坐标值即为新的特征，构成了新的维特征空间，实现了降维。

5.3.3. 从最小重构距离看PCA

先从最小化投影距离出发：从几何角度，设某个样本 $\vec{x}_i$ 和投影方向 $\vec{\mu}_1$ 之间的夹角为 $\theta$ ，则投影值为 $\vec{x}_i^T\cdot \vec{\mu}_1=\left \| \vec{x}_i \right \|\cdot \cos \theta$ ，投影距离为 $\left \| \vec{x}_i \right \|\cdot \sin \theta=\sqrt{\left \| \vec{x}_i \right \|^2-(\vec{x}_i^T\cdot \vec{\mu}_1)^2}$ ，因为不同投影方向的坐标值大小不同，因此为了将不同投影方向的情况进行公平对比，可以进行零均值化，此时投影距离的平方为 $(\vec{x}_i-\bar{\vec{x}})^T (\vec{x}_i-\bar{\vec{x}})-\vec{\mu}_1^T (\vec{x}_i-\bar{\vec{x}}) (\vec{x}_i-\bar{\vec{x}})^T\vec{\mu}_1$ ，而优化目标为
$\begin{aligned} \hat{\vec{\mu}}_1&=\underset{\vec{\mu}_1}{\argmin}\sum_{i=1}^N\left [(\vec{x}_i-\bar{\vec{x}})^T (\vec{x}_i-\bar{\vec{x}})-\vec{\mu}_1^T (\vec{x}_i-\bar{\vec{x}}) (\vec{x}_i-\bar{\vec{x}})^T\vec{\mu}_1 \right ]\\ &=\underset{\vec{\mu}_1}{\argmin}(-\vec{\mu}_1^T S\vec{\mu}_1)=\underset{\vec{\mu}_1}{\argmax}(\vec{\mu}_1^T S\vec{\mu}_1) ,\\ &\text{s.t.}\vec{\mu}^T\vec{\mu}=1 \tag{5.5} \end{aligned}$
与最大投影方差方法完全一致；
从重构角度，一个向量视为该向量空间内基向量的线性组合，例如 $\vec{x}=(1,2)=1\cdot(1,0)+2\cdot(0,1)=(1,2)\begin{pmatrix} (1,0)\\ (0,1) \end{pmatrix}= (h_1,h_2)\begin{pmatrix} \vec{v}_1\\ \vec{v}_2 \end{pmatrix}$ ，但在另一个向量空间中由不同的基向量会得到不同的坐标表示，例如 $\vec{x}=(1,2)= (h_1',h_2')\begin{pmatrix} \vec{v}_1'\\ \vec{v}_2' \end{pmatrix}= (\sqrt{2},1)\begin{pmatrix} (\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}})\\ (0, 1) \end{pmatrix}=\sqrt{2}\cdot (\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}})+1\cdot (0, 1)$ ，因此在上文的投影中，通过找到 $q$ 个投影方向可以将样本 $\vec{x}_i$ 投影到新的 $q$ 维向量空间，坐标为 $\vec{z}_i^T=(\vec{x}_i^T\vec{\mu}_1, \vec{x}_i^T\vec{\mu}_2, \cdots, \vec{x}_i^T\vec{\mu}_q)$ ，因此可以用新空间的坐标和基向量将 $\vec{x}_i$ 表示为 $\hat{\vec{x}}_i=U\vec{z}_i$ ，当 $q < p$ 即降维时，基向量信息不完整，即 $\hat{\vec{x}}_i\neq \vec{x}_i$ ，无法完全重构，当 $q = p$ 时可以完全重构；（其实上文中 $\vec{z}_i^T=\vec{x}_i^TU\Rightarrow \vec{z}_i=U^T\vec{x}_i$ ，其中 $U$ 由实对称矩阵 $S$ 的单位特征向量组成，所以当 $p = q$ 时有 $U^{-1}=U^T$ ，因此 $\vec{z}_i=U^T\vec{x}_i=U^{-1}\vec{x}_i\Rightarrow\vec{x}_i=U\vec{z}_i$ 可推成立）；
因此也可以理解为，当 $U$ 是按照特征值排序的前 $q$ 个 $\vec{\mu}_i$ 时，可以表示为 $\hat{\vec{x}}_i=U\vec{z}_i=\sum_{k=1}^q\left (\vec{\mu}_k\cdot z_{ik} \right )=\sum_{k=1}^q\left [\vec{\mu}_k\cdot \left (\vec{\mu}_k^T\vec{x}_i \right )\right ]=\sum_{k=1}^q\left (\vec{\mu}_k \vec{\mu}_k^T \right )\vec{x}_i$ ，同理 $\vec{x}_i=\sum_{k=1}^p\left [\vec{\mu}_k\cdot \left (\vec{\mu}_k^T\vec{x}_i \right )\right ]$ ， $\left (\vec{x}_i -\hat{\vec{x}_i} \right )=\sum_{k=q+1}^p\left [\vec{\mu}_k\cdot \left (\vec{\mu}_k^T\vec{x}_i \right )\right ]$ ；
因为降维任务会导致 $\hat{\vec{x}}_i\neq \vec{x}_i$ ，因此在给定 $q$ 的情况下，PCA的优化目标也可以理解为最小化重构代价，即
$\begin{aligned} \hat{U}_{p\times q}&=\underset{U}{argmin}\frac{1}{N}\sum_{i=1}^N\left \| \hat{\vec{x}}_i - \vec{x}_i \right \|^2\\ &=\underset{U}{argmin}\frac{1}{N}\sum_{i=1}^N\left \| \sum_{k=q+1}^p\left [\vec{\mu}_k\cdot \left (\vec{\mu}_k^T\vec{x}_i \right )\right ] \right \|^2\\ &=\underset{U}{argmin}\frac{1}{N}\sum_{i=1}^N\left [\sum_{k=q+1}^p\left (\vec{\mu}_k^T\vec{x}_i \right )^2\left \| \vec{\mu}_k\cdot \right \|^2 \right ]\\ &=\underset{U}{argmin}\frac{1}{N}\sum_{i=1}^N\left [\sum_{k=q+1}^p\left (\vec{\mu}_k^T\vec{x}_i \right )^2 \right ] \end{aligned}$

因为不同投影方向的坐标值大小不同，因此为了将不同投影方向的情况进行公平对比，可以进行零均值化，即 $\hat{U}_{p\times q}=\underset{U}{\argmin}\frac{1}{N}\sum_{i=1}^N\left [\sum_{k=q+1}^p\left [\vec{\mu}_k^T(\vec{x}_i-\bar{\vec{x}}_i)(\vec{x}_i-\bar{\vec{x}}_i)^T\vec{\mu}_k \right ] \right ]=\underset{U}{\argmin}\sum_{k=q+1}^p\left [\vec{\mu}_k^TS\vec{\mu}_k \right ]$
因此从最大化投影方差角度，PCA是在选择 $q$ 个特征值最大的特征向量，从最小化重构距离的角度，PCA是在选择 $p - q$ 个特征值最小的特征向量，将其舍弃，两个问题的等价的；

5.3.4. 从SVD角度看PCA

从5.2.中可知， $S=\frac{1}{N}X^THH^TX$ ，若将 $H^TX$ 作奇异值分解，即 $H^TX=V\Sigma U^T$ ，则 $S=\frac{1}{N}U\Sigma^T V^TV\Sigma U^T=U(\frac{1}{N}\Sigma^T\Sigma) U^T$ ，因此对 $S$ 进行特征值分解可以得到投影方向， $U$ 也可以是 $U^TX$ 进行奇异值分解得到的结果，而由奇异值分解的性质（1.2.3.节）可知，最大的一小部分奇异值之和就占了所有奇异值之和的99%，因此取前几个奇异值最大的投影方向可以最大程度保留原数据的信息，也就是 $\hat{\vec{x}}_i\approx \vec{x}_i$ ；
又由奇异值分解的第一个性质（1.2.3.节）可得， $H^TXU=V\Sigma=(\sigma_1\cdot\vec{v}_1, \sigma_2\cdot\vec{v}_2,\cdots,\sigma_p\cdot\vec{v}_p)_{N\times p}$ ，其中 $\sigma_i\vec{v}_i=H^TX\vec{u}_i$ 即为所有样本从原始特征空间经方向 $\vec{u}_i$ 投影的坐标值（等同于 $\vec{z}_i^T=\vec{x}_i^TU=\vec{x}_i^T\cdot (\vec{\mu}_1, \vec{\mu}_2, \cdots, \vec{\mu}_q)=(\vec{x}_i^T\vec{\mu}_1, \vec{x}_i^T\vec{\mu}_2, \cdots, \vec{x}_i^T\vec{\mu}_q)$ ，左乘中心矩阵 $H^T$ 便得到相同结果），所以奇异值分解的矩阵 $V$ 其实是坐标矩阵，因此可以再令 $T=\frac{1}{N}H^TXX^TH=\frac{1}{N}V\Sigma U^TU\Sigma^T V^T=V\left (\frac{1}{N}\Sigma \Sigma^T \right ) V^T$ ，经过特征值分解可以得到坐标矩阵 $V$ ，这个过程被称为主坐标分析（Principal Coordinate Analysis，PCoA）；