多元随机变量协方差矩阵
主要记录多元随机变量数字特征相关内容。
关键词:多元统计分析
二元随机变量(X, Y)
说明:可以理解变量中的 X为身高、Y为体重
总体协方差
σ X Y = c o v ( X , Y ) = E [ ( X − μ X ) ( Y − μ Y ) ] = E ( X Y ) − μ X μ Y \sigma_{XY}=cov(X, Y)=E[(X - \mu_X)(Y - \mu_Y)] = E(XY)-\mu_X\mu_Y σXY=cov(X,Y)=E[(X−μX)(Y−μY)]=E(XY)−μXμY
总体相关系数
ρ X Y = c o r r ( X , Y ) = σ X Y / ( σ X σ Y ) \rho_{XY}=corr(X, Y) = \sigma_{XY} / (\sigma_{X}\sigma_{Y}) ρXY=corr(X,Y)=σXY/(σXσY)
总体相关系数取值范围 [ − 1 , 1 ] [-1, 1] [−1,1]
二元随机样本
{ ( x 1 , y 1 ) , . . . , ( x n , y n ) } \{(x_1, y_1), ..., (x_n, y_n)\} {(x1,y1),...,(xn,yn)}
样本协方差
s x y = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) s_{xy}=\frac{1}{n-1} \sum_{i=1}^n(x_i - \bar{x})(y_i - \bar{y}) sxy=n−11i=1∑n(xi−xˉ)(yi−yˉ)
样本相关系数
r x y = s x y / ( s x s y ) r_{xy} = s_{xy} / (s_xs_y) rxy=sxy/(sxsy)
样本相关取值范围 [ − 1 , 1 ] [-1, 1] [−1,1]
性质
性质1
σ X Y = 0 ⇔ X 和 Y 是不相关 / 线性独立的 \sigma_{XY}=0 \Leftrightarrow X和Y 是不相关/线性独立的 σXY=0⇔X和Y是不相关/线性独立的
线性独立不等于独立
特例:如果X和Y服从二元正态分布,那么我们有
σ X Y = 0 ⇔ X 和 Y 是独立的 \sigma_{XY}=0 \Leftrightarrow X和Y 是独立的 σXY=0⇔X和Y是独立的
多元数据特征
现有 n n n 个样本点,每个样本点
包含 p p p 个变量
的观测,则数据集可以表示为 n × p n \times p n×p 矩阵
Y = ( y 11 . . . y 1 j . . . y 1 p . . . . . . . . . . . . . . . y i 1 . . . y i j . . . y i p . . . . . . . . . . . . . . . y n 1 . . . y n j . . . y n p ) = ( y 1 ⊤ . . . y 2 ⊤ . . . y n ⊤ ) Y = \begin{pmatrix} y_{11} & ... & y_{1j} & ... & y_{1p} \\ ... & ... & ... & ... & ... \\ y_{i1} & ... & y_{ij} & ... & y_{ip} \\ ... & ... & ... & ... & ... \\ y_{n1} & ... & y_{nj} & ... & y_{np} \\ \end{pmatrix} = \begin{pmatrix} y_1^\top \\ ... \\ y_2^\top \\ ... \\ y_n^\top \end{pmatrix} Y= y11...yi1...yn1...............y1j...yij...ynj...............y1p...yip...ynp = y1⊤...y2⊤...yn⊤
其中 y i = ( y i 1 , . . . , y i p ) ⊤ y_i = (y_{i1}, ..., y_{ip})^\top yi=(yi1,...,yip)⊤ 由 Y 的第 i i i 行构成,表示第 i i i个样本
均值向量
对于总体
y = ( Y 1 , . . . , Y p ) ⊤ \bm{y}=(Y_1, ..., Y_p)^\top y=(Y1,...,Yp)⊤
这里的 y \bm{y} y 是随机向量
期望:
E ( y ) = ( E ( Y 1 ) , . . . , E ( Y p ) ) ⊤ = ( μ 1 , . . . , μ p ) ⊤ = μ E(\bm{y})=(E(Y_1), ..., E(Y_p))^\top=(\mu_1, ..., \mu_p)^\top=\bm{\mu} E(y)=(E(Y1),...,E(Yp))⊤=(μ1,...,μp)⊤=μ
对于样本
{ y 1 , y 2 , . . . , y n } \{ \bm{y_1}, \bm{y_2}, ..., \bm{y_n} \} {y1,y2,...,yn}
y ˉ = 1 n ∑ i = 1 n y i = ( y 1 ˉ , . . . , y p ˉ ) ⊤ \bar{\bm{y}} = \frac{1}{n}\sum_{i=1}^n \bm{y_i}=(\bar{y_1}, ..., \bar{y_p})^\top yˉ=n1∑i=1nyi=(y1ˉ,...,ypˉ)⊤
其中 y j ˉ = 1 n ∑ i = 1 n y i j , E ( y ˉ ) = μ \bar{y_j}=\frac{1}{n}\sum_{i=1}^n y_{ij}, E(\bar{\bm{y}})=\bm{\mu} yjˉ=n1∑i=1nyij,E(yˉ)=μ
协方差矩阵
对总体
随机向量 y = ( Y 1 , . . . , Y p ) ⊤ , p × p \bm{y}=(Y_1, ..., Y_p)^\top, p \times p y=(Y1,...,Yp)⊤,p×p总体协方差矩阵定义为:
Σ = C o v ( y ) = E [ ( y − μ ) ( y − μ ) ⊤ ] = ( σ 11 σ 12 . . . σ 1 p σ 21 σ 22 . . . σ 2 p . . . . . . . . . . . . σ p 1 σ p 2 . . . σ p p ) \begin{aligned} \boldsymbol{\Sigma} &= Cov(\bm{y}) = E[(\bm{y}-\bm{\mu})(\bm{y}-\bm{\mu})^\top] \\ &=\begin{pmatrix} \sigma_{11} & \sigma_{12} & ... & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & ... & \sigma_{2p} \\ ... & ... & ... & ... \\ \sigma_{p1} & \sigma_{p2} & ... & \sigma_{pp} \\ \end{pmatrix} \end{aligned} Σ=Cov(y)=E[(y−μ)(y−μ)⊤]= σ11σ21...σp1σ12σ22...σp2............σ1pσ2p...σpp
其中,
σ j k \sigma_{jk} σjk为 Y j Y_j Yj和 Y k Y_{k} Yk之间的协方差, σ j j = σ j 2 \sigma_{jj}=\sigma_{j}^2 σjj=σj2 为 Y j Y_j Yj的方差。
对样本
随机样本 { y 1 , . . . , y n } , p × p \{ \bm{y_1}, ..., \bm{y_n} \}, p \times p {y1,...,yn},p×p 样本协方差矩阵定义为:
S = 1 n − 1 ∑ i = 1 n ( y i − y ˉ ) ( y i − y ˉ ) ⊤ = ( s 11 s 12 . . . s 1 p s 21 s 22 . . . s 2 p . . . . . . . . . . . . s p 1 s p 2 . . . s p p ) \begin{aligned} \bm{S} &= \frac{1}{n-1}\sum_{i=1}^n (\bm{y_i}-\bar{\bm{y}}) (\bm{y_i}-\bar{\bm{y}})^\top \\ &= \begin{pmatrix} s_{11} & s_{12} & ... & s_{1p} \\ s_{21} & s_{22} & ... & s_{2p} \\ ... & ... & ... & ... \\ s_{p1} & s_{p2} & ... & s_{pp} \\ \end{pmatrix} \end{aligned} S=n−11i=1∑n(yi−yˉ)(yi−yˉ)⊤= s11s21...sp1s12s22...sp2............s1ps2p...spp
其中,
s j k = 1 n − 1 ∑ i = 1 n ( y i j − y j ˉ ) ( y k j − y k ˉ ) s_{jk}=\frac{1}{n-1}\sum_{i=1}^n(y_{ij}-\bar{y_j})(y_{kj}-\bar{y_k}) sjk=n−11∑i=1n(yij−yjˉ)(ykj−ykˉ)
s j j = s j 2 = 1 n − 1 ∑ i = 1 n ( y i j − y j ˉ ) 2 s_{jj}=s_{j}^2=\frac{1}{n-1}\sum_{i=1}^n(y_{ij}- \bar{y_j})^2 sjj=sj2=n−11∑i=1n(yij−yjˉ)2
性质1
Σ \boldsymbol{\Sigma} Σ和 S \bm{S} S是对称的
性质2
Σ \boldsymbol{\Sigma} Σ是 S \bm{S} S的无偏估计,也即 E ( S ) = Σ E(\bm{S})=\boldsymbol{\Sigma} E(S)=Σ
性质3
y ˉ \bar{\bm{y}} yˉ 的协方差矩阵是 C o v ( y ˉ ) = Σ n Cov(\bar{\bm{y}})=\frac{\boldsymbol{\Sigma}}{n} Cov(yˉ)=nΣ
性质3,对应一维情况是相似的,即样本均值的方差 C o v ( x ˉ ) = σ 2 / n . Cov(\bar{x})=\sigma^2/n. Cov(xˉ)=σ2/n.
总体相关系数矩阵
P = ( ρ j k ) = ( 1 ρ 12 . . . ρ 1 p ρ 21 1 . . . ρ 2 p . . . . . . . . . . . . ρ p 1 ρ p 2 . . . 1 ) \bm{P}= (\rho_{jk}) = \begin{pmatrix} 1 & \rho_{12} & ... & \rho_{1p} \\ \rho_{21} & 1 & ... & \rho_{2p} \\ ... & ... & ... & ... \\ \rho_{p1} & \rho_{p2} & ... & 1 \end{pmatrix} P=(ρjk)= 1ρ21...ρp1ρ121...ρp2............ρ1pρ2p...1
其中 ρ j k = σ j k / ( σ j σ k ) \rho_{jk}=\sigma_{jk} / (\sigma_j \sigma_k) ρjk=σjk/(σjσk) 为 Y j Y_{j} Yj与 Y k Y_{k} Yk之间的总体相关系数
样本相关系数矩阵
对随机样本 { y 1 , . . . , y n } \{\bm{y_1}, ..., \bm{y_n}\} {y1,...,yn}来说,
R = ( r j k ) = ( 1 r 12 . . . r 1 p r 21 1 . . . r 2 p . . . . . . . . . . . . r p 1 r p 2 . . . 1 ) \bm{R}= (r_{jk}) = \begin{pmatrix} 1 & r_{12} & ... & r_{1p} \\ r_{21} & 1 & ... & r_{2p} \\ ... & ... & ... & ... \\ r_{p1} & r_{p2} & ... & 1 \end{pmatrix} R=(rjk)= 1r21...rp1r121...rp2............r1pr2p...1
其中 r j k = s j k / s j j s k k = s j k / ( s j s k ) r_{jk}=s_{jk} / \sqrt{s_{jj}s_{kk}}=s_{jk} / (s_js_k) rjk=sjk/sjjskk=sjk/(sjsk) 为第 j j j 和第 k k k 个变量之间的样本相关系数