协方差矩阵、皮尔逊相关系数
1.协方差
1.1 方差是什么?
方差衡量的是 一个变量本身的波动大小。
公式:Var(X)=E[(X−u)2]Var(X)=E[(X-u)^2]Var(X)=E[(X−u)2]
意思就是“和平均值差多少”的平方的平均。
1.2 协方差是什么?
协方差衡量的是 两个变量之间是否一起变动。
举例:
X = 身高,Y = 体重
如果身高高的人,体重大 → X 增大时 Y 也增大 → 协方差为正
如果身高高的人,体重反而轻 → X 增大时 Y 减小 → 协方差为负
如果二者没什么关系 → 协方差接近 0
公式:Cov(X,Y)=E[(X−ux)(Y−uy)]Cov(X,Y)=E[(X-u_x)(Y-u_y)]Cov(X,Y)=E[(X−ux)(Y−uy)]
数据样本形式:Cov(X,Y)=1n−1∑i=1n(xi−x‾)(yi−y‾)Cov(X,Y)=\frac{1}{n-1} \sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})Cov(X,Y)=n−11∑i=1n(xi−x)(yi−y)
1.3 协方差矩阵
当有多个变量时(比如 n 个特征),就把它们两两之间的协方差写成一个矩阵:
Cov(X)=[Cov(X1,X1)Cov(X1,X2)⋯Cov(X1,Xn)Cov(X2,X1)Cov(X2,X2)⋯Cov(X2,Xn)⋮⋮⋮⋮Cov(Xn,X1)Cov(Xn,X2)⋯Cov(Xn,Xn)]
Cov(X) = \left[ \begin{matrix} Cov(X_1,X_1) & Cov(X_1,X_2) &\cdots &Cov(X_1,X_n) \\
Cov(X_2,X_1) & Cov(X_2,X_2) &\cdots &Cov(X_2,X_n) \\
\vdots &\vdots &\vdots &\vdots \\
Cov(X_n,X_1) &Cov(X_n,X_2) &\cdots &Cov(X_n,X_n) \end{matrix} \right]
Cov(X)=Cov(X1,X1)Cov(X2,X1)⋮Cov(Xn,X1)Cov(X1,X2)Cov(X2,X2)⋮Cov(Xn,X2)⋯⋯⋮⋯Cov(X1,Xn)Cov(X2,Xn)⋮Cov(Xn,Xn)
特点:
- 对角线上是各个变量的方差(自己和自己之间的协方差)。
- 非对角线上是不同变量之间的协方差。
- 协方差矩阵一定是对称的Cov(Xi,Xj)=Cov(Xj,Xi)Cov(X_i, X_j) = Cov(X_j, X_i)Cov(Xi,Xj)=Cov(Xj,Xi)。
2.皮尔逊相关系数
公式如下:
ρX,Y=Cov(X,Y)σXσY\rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}ρX,Y=σXσYCov(X,Y)
- Cov(X,Y):Cov(X,Y):Cov(X,Y):XXX和YYY的协方差
- σX=Var(X):\sigma_X=\sqrt{Var(X)}:σX=Var(X):XXX的标准差
- σY=Var(Y):\sigma_Y=\sqrt{Var(Y)}:σY=Var(Y):YYY的标准差
2.1 为什么要这样做?
协方差有个问题:数值大小依赖于量纲,不能直接比较。
- 比如“身高(cm)”和“体重(kg)”的协方差是某个值;
- 换成“身高(m)”和“体重(g)”,协方差数值就会变得很大或很小。
所以我们用标准差来“消掉量纲的影响”:
- 除以σX\sigma_XσX和σY\sigma_YσY,相当于把X、YX、YX、Y都变成“标准化变量”(均值=0,方差=1)
- 这样之后,结果一定在-1到1之间,方便比较
下列证明:结果一定在-1到1之间
ρX,Y=1n−1∑i=1n(xi−x‾)(yi−y‾)1n−1∑i=1n(xi−x‾)21n−1∑i=1n(yi−y‾)2ρX,Y=∑i=1n(xi−x‾)(yi−y‾)∑i=1n(xi−x‾)2∑i=1n(yi−y‾)2\rho_{X,Y}=\frac{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2}} \\
\rho_{X,Y}=\frac{\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}} \\
ρX,Y=n−11∑i=1n(xi−x)2n−11∑i=1n(yi−y)2n−11∑i=1n(xi−x)(yi−y)ρX,Y=∑i=1n(xi−x)2∑i=1n(yi−y)2∑i=1n(xi−x)(yi−y)
把数据做“去中心化”:
- 令xi′=xi−x‾,yi′=yi−y‾x_i'=x_i-\overline{x},y_i'=y_i-\overline{y}xi′=xi−x,yi′=yi−y
- 写成向量x′=(xi′,⋯ ,xn′),y′=(y1′,⋯ ,yn′)\bold{x}'=(x_i',\cdots,x_n'),\bold{y}'=(y_1',\cdots,y_n')x′=(xi′,⋯,xn′),y′=(y1′,⋯,yn′)
皮尔逊相关系数可写成两向量的“余弦”:
ρX,Y=∑i=1nxi′yi′∑i=1n(xi′)2∑i=1n(yi′)2=⟨x′,y′⟩∥x′∥∥y′∥⟨x′,y′⟩=x′⋅y′=∥x′∥∥y′∥cosθ∴ρX,Y=∥x′∥∥y′∥cosθ∥x′∥∥y′∥=cosθ∴−1≤ρX,Y≤1.\rho_{X,Y}=\frac{\sum_{i=1}^nx_i'y_i'}{\sqrt{\sum_{i=1}^n(x_i')^2}\sqrt{\sum_{i=1}^n(y_i')^2}}=\frac{\langle \bold{x}',\bold{y}' \rangle}{\| \bold{x}'\| \|\bold{y}'\|} \\
\langle \bold{x}',\bold{y}' \rangle=\bold{x}' \cdot \bold{y}'=\|\bold{x}'\|\|\bold{y}'\|cos\theta \\
\therefore \rho_{X,Y}=\frac{\|\bold{x'}\|\|\bold{y'}\|cos\theta}{\|\bold{x'}\|\|\bold{y'}\|}=cos\theta \\
\therefore -1 \leq \rho_{X,Y} \leq 1.
ρX,Y=∑i=1n(xi′)2∑i=1n(yi′)2∑i=1nxi′yi′=∥x′∥∥y′∥⟨x′,y′⟩⟨x′,y′⟩=x′⋅y′=∥x′∥∥y′∥cosθ∴ρX,Y=∥x′∥∥y′∥∥x′∥∥y′∥cosθ=cosθ∴−1≤ρX,Y≤1.
何时相等?
ρ=1:\rho=1:ρ=1:y′\bold{y'}y′与x′\bold{x'}x′共线且同向,即yi−y‾=c(xi−x‾)且c>0y_i-\overline{y}=c(x_i-\overline{x})且c>0yi−y=c(xi−x)且c>0。
ρ=−1:\rho=-1:ρ=−1:共线但反向,即同上且c<0c<0c<0
2.3 几何理解
- 可以把相关系数理解为 两个向量夹角的余弦值。
- 如果ρ=1\rho=1ρ=1,方向完全一致(正相关);
- 如果ρ=−1\rho=-1ρ=−1,方向完全相反(负相关);
- 如果ρ=0\rho=0ρ=0,方向正交(无关)。