当前位置: 首页 > news >正文

神经网络|(十四)概率论基础知识-协方差和方差

【1】引言

前序学习进程中,已经回顾了协方差相关的基本概念。

【2】协方差正负和变量线性关系的说明

单个变量X=[x1,x2,...,xn]X=[x_{1},x_{2},...,x_{n}]X=[x1,x2,...,xn]的均值为:
E(x)=1n∑i=1nxiE(x)=\frac{1}{n}\sum_{i=1}^{n}x_{i}E(x)=n1i=1nxi
对于两个随机变量XXXYYY,协方差为Cov(X,Y)Cov(X,Y)Cov(X,Y),有:
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]Cov(X,Y)=E[(X-E(X))(Y-E(Y))]Cov(X,Y)=E[(XE(X))(YE(Y))]
实际的机器学习中,往往不能把变量的数据全部采集到,而是只能获得一部分样本,样本协方差的计算式为:
cov(x,y)=1n−1∑i=1n(xi−xˉ)(yi−yˉ)cov(x,y)=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar x)(y_{i}-\bar y)cov(x,y)=n11i=1n(xixˉ)(yiyˉ)
协方差的性质满足:
Cov(X,Y)>0Cov(X,Y)>0Cov(X,Y)>0XXXYYY正相关;
Cov(X,Y)=0Cov(X,Y)=0Cov(X,Y)=0XXXYYY线性不相关;
Cov(X,Y)<0Cov(X,Y)<0Cov(X,Y)<0XXXYYY负相关。
实际上这样判断的根本原因比较简单:
如果[(X−E(X)(Y−E(Y)]>0[(X-E(X)(Y-E(Y)]>0[(XE(X)(YE(Y)]>0,包括两种情况,第一种(X−E(X)>0且(Y−E(Y)>0(X-E(X)>0且(Y-E(Y)>0(XE(X)>0(YE(Y)>0,第二种(X−E(X)<0且(Y−E(Y)<0(X-E(X)<0且(Y-E(Y)<0(XE(X)<0(YE(Y)<0,这两种情况下变量XXXYYY同步偏离均值,所以认为它们是线性正相关关系;
如果[(X−E(X)(Y−E(Y)]=0[(X-E(X)(Y-E(Y)]=0[(XE(X)(YE(Y)]=0,包括两种情况,第一种仅(X−E(X)=0(X-E(X)=0(XE(X)=0,第二种仅(Y−E(Y)<0(Y-E(Y)<0(YE(Y)<0,第三种(X−E(X)=0且(Y−E(Y)=0(X-E(X)=0且(Y-E(Y)=0(XE(X)=0(YE(Y)=0,这三种情况下,变量XXXYYY总有一个停滞在均值处,这个停滞的量和另一个量没有任何关系,所以认为它们彼此不相关;
如果[(X−E(X)(Y−E(Y)]<0[(X-E(X)(Y-E(Y)]<0[(XE(X)(YE(Y)]<0,包括两种情况,第一种(X−E(X)>0且(Y−E(Y)<0(X-E(X)>0且(Y-E(Y)<0(XE(X)>0(YE(Y)<0,第二种(X−E(X)<0且(Y−E(Y)>0(X-E(X)<0且(Y-E(Y)>0(XE(X)<0(YE(Y)>0,这两种情况下变量XXXYYY按照相反的方向偏离均值,所以认为它们是线性负相关关系。

【3】方差

我们直接从均值跳跃到协方差的计算,现在看来步子过大,在均值和协方差中间,还有一个变量,方差Var(X)Var(X)Var(X)
Var(X)=E[(X−E(X))2]=E[X2−2XE(X)+E(X)2]=E(X2)−2E(X)E(E(X))+E(E(X)2)=E(X2)−E(X)2Var(X)=E[(X-E(X))^2]=E[X^2-2XE(X)+E(X)^2]=\\ E(X^2)-2E(X)E(E(X))+E(E(X)^2)=\\ E(X^2)-E(X)^2Var(X)=E[(XE(X))2]=E[X22XE(X)+E(X)2]=E(X2)2E(X)E(E(X))+E(E(X)2)=E(X2)E(X)2

【4】当协方差等于方差

从公式推导上看,协方差等于方差是完全可能的:当计算变量自己和自己的协方差时,协方差就是方差。

Cov(X,X)=E[(X−E(X))(X−E(X))]=E(X2)−E(X)2Cov(X,X)=E[(X-E(X))(X-E(X))]=E(X^2)-E(X)^2Cov(X,X)=E[(XE(X))(XE(X))]=E(X2)E(X)2
方差其实是协方差的一个特例,协方差计算所有变量之间的相互线性关系,但方差计算的是变量自己和自己的线性关系。

【5】总结

回顾了协方差和方差的基本概念。

http://www.dtcms.com/a/348384.html

相关文章:

  • 使用 Golang 的 Gin 框架实现一周极限编程计划:全网 AIGC 项目热点追踪应用
  • 自然语言处理——06 迁移学习(下)
  • 自然语言处理——06 迁移学习(中)
  • RockyLinux9.6安装k8s
  • 【(含模板)滑动窗口 - LeetCode】3. 无重复字符的最长子串
  • 从“小麻烦”到“大难题”:Spring Boot 配置文件的坑与解
  • UE5游戏开发的理想硬件配置指南:从入门到专业级方案
  • MySQL视图有什么用?一文读懂虚拟表的六大核心价值
  • 数据治理进阶——埃森哲 数据治理元数据管理建设规划方案【附全文阅读】
  • LabVIEW Vision视觉引导撑簧圈智能插装
  • java-代码随想录第十五天| 12.平衡二叉树、222.完全二叉树的节点个数、404.左叶子之和
  • 网络安全转型书籍清单
  • JavaScript 性能优化实战:全方位提升 Web 应用性能
  • 【LeetCode 热题 100】152. 乘积最大子数组——(解法一)递推
  • Vue2+Vue3前端开发笔记合集
  • 九、redis 入门 之 数据库和缓存一致性问题
  • Vue2+Vue3前端开发_Day12-Day14_大事件管理系统
  • Python无穷大与NaN处理完全指南:从基础到工程级解决方案
  • 【Java】springboot的自动配置
  • Wagtail CRX 简介
  • Python使用-Python环境安装
  • 【分布式中间件】Kafka 核心配置深度解析与优化指南
  • 【存在重复元素II】
  • 57 C++ 现代C++编程艺术6-类的内部类
  • MSF基础知识
  • Flask蓝图:模块化开发的利器
  • 数学建模--模糊综合评价法
  • 优化OpenHarmony中lspci命令实现直接获取设备具体型号
  • 7.6 残差网络
  • Palantir Foundry 领先其他数据平台5到10年:一位使用者的深入观察