当前位置: 首页 > news >正文

协方差矩阵、皮尔逊相关系数

1.协方差

1.1 方差是什么?

方差衡量的是 一个变量本身的波动大小。
公式:Var(X)=E[(X−u)2]Var(X)=E[(X-u)^2]Var(X)=E[(Xu)2]
意思就是“和平均值差多少”的平方的平均。

1.2 协方差是什么?

协方差衡量的是 两个变量之间是否一起变动。

举例:
X = 身高,Y = 体重
如果身高高的人,体重大 → X 增大时 Y 也增大 → 协方差为正
如果身高高的人,体重反而轻 → X 增大时 Y 减小 → 协方差为负
如果二者没什么关系 → 协方差接近 0

公式:Cov(X,Y)=E[(X−ux)(Y−uy)]Cov(X,Y)=E[(X-u_x)(Y-u_y)]Cov(X,Y)=E[(Xux)(Yuy)]
数据样本形式:Cov(X,Y)=1n−1∑i=1n(xi−x‾)(yi−y‾)Cov(X,Y)=\frac{1}{n-1} \sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})Cov(X,Y)=n11i=1n(xix)(yiy)

1.3 协方差矩阵

当有多个变量时(比如 n 个特征),就把它们两两之间的协方差写成一个矩阵:
Cov(X)=[Cov(X1,X1)Cov(X1,X2)⋯Cov(X1,Xn)Cov(X2,X1)Cov(X2,X2)⋯Cov(X2,Xn)⋮⋮⋮⋮Cov(Xn,X1)Cov(Xn,X2)⋯Cov(Xn,Xn)] Cov(X) = \left[ \begin{matrix} Cov(X_1,X_1) & Cov(X_1,X_2) &\cdots &Cov(X_1,X_n) \\ Cov(X_2,X_1) & Cov(X_2,X_2) &\cdots &Cov(X_2,X_n) \\ \vdots &\vdots &\vdots &\vdots \\ Cov(X_n,X_1) &Cov(X_n,X_2) &\cdots &Cov(X_n,X_n) \end{matrix} \right] Cov(X)=Cov(X1,X1)Cov(X2,X1)Cov(Xn,X1)Cov(X1,X2)Cov(X2,X2)Cov(Xn,X2)Cov(X1,Xn)Cov(X2,Xn)Cov(Xn,Xn)
特点:

  • 对角线上是各个变量的方差(自己和自己之间的协方差)。
  • 非对角线上是不同变量之间的协方差。
  • 协方差矩阵一定是对称的Cov(Xi,Xj)=Cov(Xj,Xi)Cov(X_i, X_j) = Cov(X_j, X_i)Cov(Xi,Xj)=Cov(Xj,Xi)

2.皮尔逊相关系数

公式如下:
ρX,Y=Cov(X,Y)σXσY\rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}ρX,Y=σXσYCov(X,Y)

  • Cov(X,Y):Cov(X,Y):Cov(X,Y)XXXYYY的协方差
  • σX=Var(X):\sigma_X=\sqrt{Var(X)}:σX=Var(X)XXX的标准差
  • σY=Var(Y):\sigma_Y=\sqrt{Var(Y)}:σY=Var(Y)YYY的标准差

2.1 为什么要这样做?

协方差有个问题:数值大小依赖于量纲,不能直接比较。

  • 比如“身高(cm)”和“体重(kg)”的协方差是某个值;
  • 换成“身高(m)”和“体重(g)”,协方差数值就会变得很大或很小。

所以我们用标准差来“消掉量纲的影响”:

  • 除以σX\sigma_XσXσY\sigma_YσY,相当于把X、YX、YXY都变成“标准化变量”(均值=0,方差=1)
  • 这样之后,结果一定在-1到1之间,方便比较

下列证明:结果一定在-1到1之间
ρX,Y=1n−1∑i=1n(xi−x‾)(yi−y‾)1n−1∑i=1n(xi−x‾)21n−1∑i=1n(yi−y‾)2ρX,Y=∑i=1n(xi−x‾)(yi−y‾)∑i=1n(xi−x‾)2∑i=1n(yi−y‾)2\rho_{X,Y}=\frac{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\frac{1}{n-1}\sum_{i=1}^n(y_i-\overline{y})^2}} \\ \rho_{X,Y}=\frac{\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(x_i-\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}} \\ ρX,Y=n11i=1n(xix)2n11i=1n(yiy)2n11i=1n(xix)(yiy)ρX,Y=i=1n(xix)2i=1n(yiy)2i=1n(xix)(yiy)
把数据做“去中心化”:

  • xi′=xi−x‾,yi′=yi−y‾x_i'=x_i-\overline{x},y_i'=y_i-\overline{y}xi=xix,yi=yiy
  • 写成向量x′=(xi′,⋯ ,xn′),y′=(y1′,⋯ ,yn′)\bold{x}'=(x_i',\cdots,x_n'),\bold{y}'=(y_1',\cdots,y_n')x=(xi,,xn)y=(y1,,yn)

皮尔逊相关系数可写成两向量的“余弦”:
ρX,Y=∑i=1nxi′yi′∑i=1n(xi′)2∑i=1n(yi′)2=⟨x′,y′⟩∥x′∥∥y′∥⟨x′,y′⟩=x′⋅y′=∥x′∥∥y′∥cosθ∴ρX,Y=∥x′∥∥y′∥cosθ∥x′∥∥y′∥=cosθ∴−1≤ρX,Y≤1.\rho_{X,Y}=\frac{\sum_{i=1}^nx_i'y_i'}{\sqrt{\sum_{i=1}^n(x_i')^2}\sqrt{\sum_{i=1}^n(y_i')^2}}=\frac{\langle \bold{x}',\bold{y}' \rangle}{\| \bold{x}'\| \|\bold{y}'\|} \\ \langle \bold{x}',\bold{y}' \rangle=\bold{x}' \cdot \bold{y}'=\|\bold{x}'\|\|\bold{y}'\|cos\theta \\ \therefore \rho_{X,Y}=\frac{\|\bold{x'}\|\|\bold{y'}\|cos\theta}{\|\bold{x'}\|\|\bold{y'}\|}=cos\theta \\ \therefore -1 \leq \rho_{X,Y} \leq 1. ρX,Y=i=1n(xi)2i=1n(yi)2i=1nxiyi=x∥∥yx,yx,y=xy=x∥∥ycosθρX,Y=x∥∥yx∥∥ycosθ=cosθ1ρX,Y1.
何时相等?
ρ=1:\rho=1:ρ=1y′\bold{y'}yx′\bold{x'}x共线且同向,即yi−y‾=c(xi−x‾)且c>0y_i-\overline{y}=c(x_i-\overline{x})且c>0yiy=c(xix)c>0
ρ=−1:\rho=-1:ρ=1共线但反向,即同上且c<0c<0c<0

2.3 几何理解

  • 可以把相关系数理解为 两个向量夹角的余弦值。
  • 如果ρ=1\rho=1ρ=1,方向完全一致(正相关);
  • 如果ρ=−1\rho=-1ρ=1,方向完全相反(负相关);
  • 如果ρ=0\rho=0ρ=0,方向正交(无关)。
http://www.dtcms.com/a/391884.html

相关文章:

  • Redis 三大架构模式详解:主从复制、哨兵、Cluster 搭建全指南
  • [x-cmd] 如何安全卸载 x-cmd
  • 整体设计 语言拼凑/逻辑拆解/词典缝合 之 3 词典缝合(“他”):显露词典编纂行列式项的 “自然”三“然”:自然本然/ 自然而然/自然实然
  • linux配置ssh,亲测简单可用
  • SNMP 模块化设计解析
  • 2025的Xmind自定义安装(实测版)
  • AI“闻香识酒”:电子鼻+机器学习开启气味数字化新纪元
  • Coze工作流拆解:成语故事类小红书图文批量创作全流程
  • PyQt6之进度条
  • 【AI编程】Trae配置rules与配置和使用一些目前比较好用的MCP
  • 音乐家不会被束缚,MusicGPT+cpolar让创作更自由
  • python笔记之面向对象篇(六)
  • Linux中处理nohup日志太大的问题
  • vLLM应该怎么学习
  • 实测AI Ping,一个大模型服务选型的实用工具——技术原理与核心技巧解析
  • rag-anything —— 一站式 RAG 系统
  • 第十周文件包含漏洞和远程命令执⾏漏洞
  • 2021年下半年 系统架构设计师 综合知识
  • 佳易王宠物医院管理系统软件:核心功能详解
  • Berkeley DB: 一款高性能的嵌入式键值对数据库
  • BGE-large-zh-v1.5微调
  • Merkle Patricia Tree
  • 2003-2017年各地级市环境相关指标数据
  • 【开题答辩全过程】以 基于JAVA的视频分享管理系统为例,包含答辩的问题和答案
  • claude-code-和-codex-和-cursor-uniapp前端开发实测
  • 阿里新发布|Qwen3-Next-80B-A3B :MoE 架构破解大模型效率难题,vLLM 落地实测
  • 1型糖尿病中的胰岛细胞病变(β细胞与α细胞)
  • 工频干扰消除算法总结参考
  • 6.栈和队列(上)
  • C语言 ——— 数组