数学笔记1
目录
- 1、均值、标准差、方差
- 2、协方差
- 2.1、协方差矩阵
- 2.1.1、协方差矩阵奇异值分解(SVD)
- 3、奇异值分解(SVD)
参考:https://blog.csdn.net/u010087338/article/details/117696482
1、均值、标准差、方差
- 均值、期望:估算样品集合的平均水平
X ‾ = ∑ i = 1 n X i n \overline{\text{X}}=\dfrac{\sum_{i=1}^nX_i}{n} X=n∑i=1nXi - 标准差:
s = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 s=\sqrt{\dfrac{\sum_{i=1}^n(X_i-\overline{X})^2}{n-1}} s=n−1∑i=1n(Xi−X)2 - 方差:估算样品集合的散步度,单元维度偏离其均值的程度
s 2 = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 s^2=\dfrac{\sum_{i=1}^n(X_i-\overline{X})^2}{n-1} s2=n−1∑i=1n(Xi−X)2
2、协方差
- 协方差(covariance):模拟方差的定义,度量各个维度偏离其均值的程度
c o v ( X , Y ) = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) n − 1 cov(X,Y)=\dfrac{\sum_{i=1}^n(X_i-\overline{X})(Y_i-\overline{Y})}{n-1} cov(X,Y)=n−1∑i=1n(Xi−X)(Yi−Y)
通俗理解:方差是计算一个班级每个人身高的离散程度之和。协方差是计算一个班级每个人(i=0,1,2…)的身高和体重(两个变量)的相互影响,然后求和。
其他公式:(E表示数学期望)
C o v ( X i , X j ) = E [ ( X i − E [ X i ] ) ( X j − E [ X j ] ) ] Cov(X_i,X_j)=E[(X_i-E[X_i])(X_j-E[X_j])] Cov(Xi,Xj)=E[(Xi−E[Xi])(Xj−E[Xj])]
2.1、协方差矩阵
描述多个随机变量之间的协方差的方阵。协方差是两个随机变量的线性相关程度的度量。
如果有n个随机变量 X 1 , X 2 , … , X n X_1,X_2,…,X_n X1,X2,…,Xn,那么它们的协方差矩阵 ∑ \sum ∑可以表示为:
∑ = [ C o v ( X 1 , X 1 ) C o v ( X 1 , X 2 ) ⋯ C o v ( X 1 , X n ) C o v ( X 2 , X 1 ) C o v ( X 2 , X 2 ) ⋯ C o v ( X 1 , X n ) ⋮ ⋮ ⋱ ⋮ C o v ( X n , X 1 ) C o v ( X n , X 2 ) ⋯ C o v ( X n , X n ) ] (c) \sum= \begin{bmatrix} Cov(X_1,X_1)&Cov(X_1,X_2) & \cdots & Cov(X_1,X_n)\\ Cov(X_2,X_1)&Cov(X_2,X_2) & \cdots & Cov(X_1,X_n)\\ \vdots & \vdots & \ddots & \vdots\\ Cov(X_n,X_1)&Cov(X_n,X_2) & \cdots & Cov(X_n,X_n) \end{bmatrix} \tag{c} ∑= Cov(X1,X1)Cov(X2,X1)⋮Cov(Xn,X1)Cov(X1,X2)Cov(X2,X2)⋮Cov(Xn,X2)⋯⋯⋱⋯Cov(X1,Xn)Cov(X1,Xn)⋮Cov(Xn,Xn) (c)
2.1.1、协方差矩阵奇异值分解(SVD)
- 将X的转置( X T X^T XT)与X相乘,等效于计算X和X在每个维度上对应坐标的内积。
- 内积反映两个向量在某个维度上的相似程度,越相似内积越大
- 因此 X T X X^TX XTX的每个元素就是X和X在该维度上坐标的协方差(还没很理解enmm)
协方差矩阵是一个描述两个或多个随机变量之间的线性关系的矩阵,它的元素是各对随机变量之间的协方差。协方差矩阵可以进行奇异分解(SVD),参考下面SVD解析,假设X是一个np的数据矩阵,每一行是一个p维的观测值,每一列斯一个n维的变量,那么X的协方差矩阵S可以写为:
S
=
1
n
−
1
X
T
X
S=\dfrac{1}{n-1}X^TX
S=n−11XTX
S的奇异值分解可以写为:
S
=
U
∑
V
T
S=U\sum V^T
S=U∑VT
其中,U、V都是pp的正交矩阵(
U
T
U
=
V
V
T
=
I
U^TU=VV^T=I
UTU=VVT=I,
I
I
I是单位矩阵),
∑
\sum
∑是p*p的对角矩阵(
∑
=
d
i
a
g
(
σ
1
,
σ
2
,
…
,
σ
p
\sum=diag(\sigma_1,\sigma_2,…,\sigma_p
∑=diag(σ1,σ2,…,σp,
σ
i
\sigma_i
σi是S的第i个奇异值,按降序排列)。
奇异值分解的几何意义是将原始数据在一个新的坐标系下展开,即各个主成分之间没有线性相关性。
- ∑ \sum ∑表示各个主成分对数据方差的贡献,越大的奇异值对应越重要的主成分。
- V表示原始数据在新坐标下的投影。
3、奇异值分解(SVD)
参考:https://zhuanlan.zhihu.com/p/448767610?utm_id=0
奇异值分解(SVD,Singular Value Decomposition),主要思想就是主成分分解,求解奇异值。粗俗理解就是一个矩阵(A)转化为3个矩阵(
U
、
∑
、
V
T
U、\sum、V^T
U、∑、VT)乘积:
A
=
U
∑
V
T
A=U\sum V^T
A=U∑VT
其中:
A:M*N的矩阵;
U
U
U:M*M的正交矩阵(即
U
T
U
=
I
U^TU=I
UTU=I),
U
=
A
A
T
U=AA^T
U=AAT;
∑
\sum
∑:M*N的对角矩阵(除主对角线全部是0),主对角线每个元素为奇异值
V:N*N的正交矩阵,
V
T
=
A
T
A
V^T=A^TA
VT=ATA