当前位置：首页 > news >正文

协方差矩阵、皮尔逊相关系数

news 2025/9/20 14:55:47

1.协方差

1.1 方差是什么？

方差衡量的是 一个变量本身的波动大小。
公式： $Var(X)=E[(X-u)^2]$
意思就是“和平均值差多少”的平方的平均。

1.2 协方差是什么？

协方差衡量的是两个变量之间是否一起变动。

举例：
X = 身高，Y = 体重
如果身高高的人，体重大 → X 增大时 Y 也增大 → 协方差为正
如果身高高的人，体重反而轻 → X 增大时 Y 减小 → 协方差为负
如果二者没什么关系 → 协方差接近 0

公式： $Cov(X,Y)=E[(X-u_x)(Y-u_y)]$
数据样本形式： $Cov(X,Y)=1n−1∑i=1n(xi−x‾)(yi−y‾)Cov(X,Y)=\frac{1}{n-1} \sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})$

1.3 协方差矩阵

当有多个变量时（比如 n 个特征），就把它们两两之间的协方差写成一个矩阵：
$\left[ \begin{matrix} Cov(X_1,X_1) & Cov(X_1,X_2) &\cdots &Cov(X_1,X_n) \\ Cov(X_2,X_1) & Cov(X_2,X_2) &\cdots &Cov(X_2,X_n) \\ \vdots &\vdots &\vdots &\vdots \\ Cov(X_n,X_1) &Cov(X_n,X_2) &\cdots &Cov(X_n,X_n) \end{matrix} \right]$
特点：

对角线上是各个变量的方差（自己和自己之间的协方差）。
非对角线上是不同变量之间的协方差。
协方差矩阵一定是对称的 $Cov(X_i, X_j) = Cov(X_j, X_i)$ 。

2.皮尔逊相关系数

公式如下：
$ρX,Y=Cov(X,Y)σXσY\rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}$

$C o v (X, Y) ：$ $X$ 和 $Y$ 的协方差
$σX=Var(X)：\sigma_X=\sqrt{Var(X)}：$ $X$ 的标准差
$σY=Var(Y)：\sigma_Y=\sqrt{Var(Y)}：$ $Y$ 的标准差

2.1 为什么要这样做？

协方差有个问题：数值大小依赖于量纲，不能直接比较。

比如“身高(cm)”和“体重(kg)”的协方差是某个值；
换成“身高(m)”和“体重(g)”，协方差数值就会变得很大或很小。

所以我们用标准差来“消掉量纲的影响”：

除以 $σX\sigma_X$ 和 $σY\sigma_Y$ ，相当于把 $X 、 Y$ 都变成“标准化变量”（均值=0，方差=1）
这样之后，结果一定在-1到1之间，方便比较

下列证明：结果一定在-1到1之间
$ρX,Y=1n−1∑i=1n(xi−x‾)(yi−y‾)1n−1∑i=1n(xi−x‾)21n−1∑i=1n(yi−y‾)2ρX,Y=∑i=1n(xi−x‾)(yi−y‾)∑i=1n(xi−x‾)2∑i=1n(yi−y‾)2\rho_{X,Y}=\frac{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2}} \\ \rho_{X,Y}=\frac{\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}} \\$
把数据做“去中心化”：

令 $xi′=xi−x‾,yi′=yi−y‾x_i'=x_i-\overline{x},y_i'=y_i-\overline{y}$
写成向量 $,yn′)\bold{x}'=(x_i',\cdots,x_n')，\bold{y}'=(y_1',\cdots,y_n')$

皮尔逊相关系数可写成两向量的“余弦”：
$ρX,Y=∑i=1nxi′yi′∑i=1n(xi′)2∑i=1n(yi′)2=⟨x′,y′⟩∥x′∥∥y′∥⟨x′,y′⟩=x′⋅y′=∥x′∥∥y′∥cosθ∴ρX,Y=∥x′∥∥y′∥cosθ∥x′∥∥y′∥=cosθ∴−1≤ρX,Y≤1.\rho_{X,Y}=\frac{\sum_{i=1}^nx_i'y_i'}{\sqrt{\sum_{i=1}^n(x_i')^2}\sqrt{\sum_{i=1}^n(y_i')^2}}=\frac{\langle \bold{x}',\bold{y}' \rangle}{\| \bold{x}'\| \|\bold{y}'\|} \\ \langle \bold{x}',\bold{y}' \rangle=\bold{x}' \cdot \bold{y}'=\|\bold{x}'\|\|\bold{y}'\|cos\theta \\ \therefore \rho_{X,Y}=\frac{\|\bold{x'}\|\|\bold{y'}\|cos\theta}{\|\bold{x'}\|\|\bold{y'}\|}=cos\theta \\ \therefore -1 \leq \rho_{X,Y} \leq 1.$
何时相等？
$ρ=1：\rho=1：$ $y′\bold{y'}$ 与 $x′\bold{x'}$ 共线且同向，即 $yi−y‾=c(xi−x‾)且c>0y_i-\overline{y}=c(x_i-\overline{x})且c>0$ 。
$ρ=−1：\rho=-1：$ 共线但反向，即同上且 $c < 0$