PCA主成分分析法(最大投影方差,最小重构距离,SVD角度)
统计分析中,数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数不相关的变量来代替相关的变量,用来表示数据,并且要求能够保留数据中的大部分信息。
在信号处理领域,信号具有较大方差,噪声具有较小方差,因此,我们不难引出PCA的目标,即最大化投影方差,即让数据在主轴上投影的方差最大.
最大投影方差
推导过程
给定一组数据点,其中每个向量均为列向量
中心化为
由于向量内积在几何上表示为第一个向量投影到第二个向量上的长度,又由于投影之后均值为0,因此向量在w(单位方向向量)上的投影方差可以表示为
其中
是样本协方差矩阵,记为
,(协方差矩阵计算的是不同维度之间的协方差而不是不同样本之间的)且w是单位方向向量,有
引入拉格朗日乘子,对w求导令其等于0
此时
即样本投影后的方差就是协方差矩阵的特征值,最佳投影方向就是最大特征值所对应的特征向量.
求解方法
(1)样本数据中心化处理
(2)求样本协方差矩阵
(3)对协方差矩阵进行特征值分解,将特征值从大到小排列
(4)取特征值前d大对应的特征向量,并将n维样本映射到d维
降维后的信息占比
最小重构距离
令
表示样本投影后的坐标值
表示样本投影后降维选取前q大的坐标值
目标是令
最小
展开
由于xi已经中心化过了
所以最小重构距离和最大投影方差是等价的
SVD角度
思路:不求样本的协方差矩阵,而是对中心化后的数据进行奇异值分解
对中心化后的数据进行奇异值分解
样本协方差矩阵为
对照特征值分解的S
得到
G=V
K=
从 SVD 角度看,PCA 的投影矩阵可以直接从 V 中获取。V 的列向量就是协方差矩阵 S 的特征向量,而奇异值的平方与协方差矩阵的特征值成正比。选取前 k 个右奇异向量构成投影矩阵,就能够实现数据的降维。
参考
<统计学习方法>
<百面机器学习>
(系列五) 降维1-背景_哔哩哔哩_bilibili