当前位置：首页 > news >正文

神经网络|(十四)概率论基础知识-协方差和方差

news 2025/8/25 6:36:05

【1】引言

前序学习进程中，已经回顾了协方差相关的基本概念。

【2】协方差正负和变量线性关系的说明

单个变量 $X=[x_{1},x_{2},...,x_{n}]$ 的均值为：
$E(x)=1n∑i=1nxiE(x)=\frac{1}{n}\sum_{i=1}^{n}x_{i}$
对于两个随机变量 $X$ 和 $Y$ ，协方差为 $C o v (X, Y)$ ，有：
$C o v (X, Y) = E [(X - E (X)) (Y - E (Y))]$
实际的机器学习中，往往不能把变量的数据全部采集到，而是只能获得一部分样本，样本协方差的计算式为：
$cov(x,y)=1n−1∑i=1n(xi−xˉ)(yi−yˉ)cov(x,y)=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar x)(y_{i}-\bar y)$
协方差的性质满足：
若 $C o v (X, Y) > 0$ ： $X$ 和 $Y$ 正相关；
若 $C o v (X, Y) = 0$ ： $X$ 和 $Y$ 线性不相关；
若 $C o v (X, Y) < 0$ ： $X$ 和 $Y$ 负相关。
实际上这样判断的根本原因比较简单:
如果 $[(X - E (X) (Y - E (Y)] > 0$ ，包括两种情况，第一种 $(X - E (X) > 0 且 (Y - E (Y) > 0$ ，第二种 $(X - E (X) < 0 且 (Y - E (Y) < 0$ ，这两种情况下变量 $X$ 和 $Y$ 同步偏离均值，所以认为它们是线性正相关关系；
如果 $[(X - E (X) (Y - E (Y)] = 0$ ，包括两种情况，第一种仅 $(X - E (X) = 0$ ，第二种仅 $(Y - E (Y) < 0$ ，第三种 $(X - E (X) = 0 且 (Y - E (Y) = 0$ ，这三种情况下，变量 $X$ 和 $Y$ 总有一个停滞在均值处，这个停滞的量和另一个量没有任何关系，所以认为它们彼此不相关；
如果 $[(X - E (X) (Y - E (Y)] < 0$ ，包括两种情况，第一种 $(X - E (X) > 0 且 (Y - E (Y) < 0$ ，第二种 $(X - E (X) < 0 且 (Y - E (Y) > 0$ ，这两种情况下变量 $X$ 和 $Y$ 按照相反的方向偏离均值，所以认为它们是线性负相关关系。

【3】方差

我们直接从均值跳跃到协方差的计算，现在看来步子过大，在均值和协方差中间，还有一个变量，方差 $V a r (X)$ ：
$Var(X)=E[(X-E(X))^2]=E[X^2-2XE(X)+E(X)^2]=\\ E(X^2)-2E(X)E(E(X))+E(E(X)^2)=\\ E(X^2)-E(X)^2$