当前位置：首页 > news >正文

PCA主成分分析法(最大投影方差,最小重构距离,SVD角度)

news 2025/7/2 1:52:26

统计分析中，数据的变量之间可能存在相关性，以致增加了分析的难度。于是，考虑由少数不相关的变量来代替相关的变量，用来表示数据，并且要求能够保留数据中的大部分信息。

在信号处理领域,信号具有较大方差,噪声具有较小方差,因此,我们不难引出PCA的目标,即最大化投影方差,即让数据在主轴上投影的方差最大.

最大投影方差

推导过程

给定一组数据点 $\left \{ v_{1},v_{2},v_{3},... ,v_{n} \right \}$ ,其中每个向量均为列向量

中心化为 $\left \{ x_{1},x_{2},...,x_{n} \right \}=\left \{ v_{1}-\mu,v_{2}-\mu,... ,v_{n}-\mu \right \}$

由于向量内积在几何上表示为第一个向量投影到第二个向量上的长度,又由于投影之后均值为0,因此向量 $_{}$ $x_{i}$ 在w(单位方向向量)上的投影方差可以表示为

$D(x)=\frac{1}{n}\sum_{i=1}^{n}(x_{i}^{T}w)^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}^{T}w)^{T}(x_{i}^{T}w)\\=\frac{1}{n}\sum_{i=1}^{n}w^{T}x_{i}x_{i}^{T}w\\=w^{T}(\frac{1}{n}\sum_{i=1}^{n}x_{i}x_{i}^{T})w$

其中

$\frac{1}{n}\sum_{i=1}^{n}x_{i}x_{i}^{T}$ 是样本协方差矩阵,记为 $\Sigma$ ,(协方差矩阵计算的是不同维度之间的协方差而不是不同样本之间的)且w是单位方向向量,有 $w^{T}w=1$

引入拉格朗日乘子,对w求导令其等于0

$L(w,\lambda )=w^{T}\Sigma w+\lambda (1-w^{T}w)\\ \frac{\partial L}{\partial w}=2\Sigma w-\lambda 2w=0\\ \Sigma w=\lambda w$

此时

$D(x)=w^{T}\Sigma w=\lambda w^{T} w=\lambda$

即样本投影后的方差就是协方差矩阵的特征值,最佳投影方向就是最大特征值所对应的特征向量.

求解方法

(1)样本数据中心化处理

(2)求样本协方差矩阵

(3)对协方差矩阵进行特征值分解,将特征值从大到小排列

(4)取特征值前d大对应的特征向量,并将n维样本映射到d维

$x_{i}^{'}=\left[\begin{array}{c} w_{1}^{T} x_{i}\\ w_{2}^{T} x_{i} \\ \vdots \\w_{d}^{T} x_{i} \end{array}\right]$

降维后的信息占比

$\displaystyle\eta =\sqrt{\frac{\sum_{i=1}^{d}{\lambda _{i}}^{2}}{\sum_{i=1}^{n}{\lambda _{i}}^{2}}}$

最小重构距离

令

$x_{i}=\sum_{k=1}^{p}(x_{i}^{T}w_{k})w_{k}$ 表示样本投影后的坐标值

$\hat{x_{i}}=\sum_{k=1}^{q}(x_{i}^{T}w_{k})w_{k}$ 表示样本投影后降维选取前q大的坐标值

目标是令

$J=\frac{1}{N}\sum_{i=1}^{N}||x_{i}-\hat{x_{i}}||^{2}$ 最小

展开

$=\frac{1}{N}\sum_{i=1}^{N}||\sum_{k=q+1}^{p}(x_{i}^{T}w_{k})w_{k}||^{2}\\ =\frac{1}{N}\sum_{i=1}^{N}\sum_{k=q+1}^{p}(x_{i}^{T}w_{k})^{2}\\$

由于xi已经中心化过了

$=\sum_{i=1}^N\sum_{k=q+1}^p\frac1N\left((x_i-\bar x)^Tw_k \right )^2\\ =\sum_{k=q+1}^pw_k^T\Sigma w_k,\quad\text{s.t.}~w_k^Tw_k=1.$

所以最小重构距离和最大投影方差是等价的

SVD角度

思路:不求样本的协方差矩阵,而是对中心化后的数据进行奇异值分解

对中心化后的数据进行奇异值分解

$X_{N*P}=U\Sigma V^{T}\\$

样本协方差矩阵为

$S=X^{T}X=V\Sigma U^{T}U\Sigma V^{T}=V\Sigma^{2} V^{T}$

对照特征值分解的S

$S=GKG^{T}$

得到

G=V

K= $\Sigma ^{2}$

从 SVD 角度看，PCA 的投影矩阵可以直接从 V 中获取。V 的列向量就是协方差矩阵 S 的特征向量，而奇异值的平方与协方差矩阵的特征值成正比。选取前 k 个右奇异向量构成投影矩阵，就能够实现数据的降维。

参考

<统计学习方法>

<百面机器学习>

(系列五) 降维1-背景_哔哩哔哩_bilibili

查看全文

http://www.dtcms.com/a/167051.html

生物化学笔记：神经生物学概论06 听觉系统结构与功能声强范围的检测(外毛细胞动态调节)

第二章日志分析-apache日志分析（玄机系列）

STM32移植U8G2

WPF使用SQLSugar和Nlog

QT —— 信号和槽（带参数的信号和槽函数）

C++漫溯键值的长河：map set

IPD研学：76页页基于IPD思想-华为需求管理培训方案【附全文阅读】

【2025五一数学建模竞赛C题】社交媒体平台用户分析问题｜建模过程+完整代码论文全解全析

[更新完毕]2025东三省A题深圳杯A题数学建模挑战赛数模思路代码文章教学:热弹性物理参数估计

计算机视觉——基于树莓派的YOLO11模型优化与实时目标检测、跟踪及计数的实践

前端面试宝典---webpack原理解析，并有简化版源码

突破传统！TTRL如何开启大模型无监督强化学习新篇章？

使用Python和Pandas实现的Snowflake权限检查与SQL生成用于IT审计

windows电脑端SSH连接开termux的安卓端

【经管数据】上市公司企业资本要素和劳动要素投入数据（2000-2022年）

Java大厂硬核面试：Flink流处理容错、Pomelo JVM调优、MyBatis二级缓存穿透防护与Kubernetes服务网格实战解析

博主勇闯自媒体

图像加密算法概述

python2反编译部分

油气人工地震资料信号处理中，机器学习和AI应用

深入理解虚拟机与容器：原理、对比与应用场景分析

linux学习——数据库API创建

Nginx Proxy Manager 中文版安装部署

【电脑维修】MERCURY水星无线网卡导致 Windows 网络适配器无法连接的一种情况

【Linux】VSCode用法

数字智慧方案5961丨智慧能源与运维云平台解决方案（52页PPT）（文末有下载方式）

贝叶斯算法实战：从原理到鸢尾花数据集分类

Vue 3 中通过 this. 调用 setup 暴露的函数

【2025域适应科研日报】

仿腾讯会议——服务器结构讲解

最大投影方差

最小重构距离

SVD角度

相关文章：