当前位置: 首页 > news >正文

【课堂笔记】概率论-2

文章目录

    • 联合分布 Joint Distribution 和 边缘分布 Marginal Distribution
      • 定义
      • 独立情况
    • 卷积,和事件 X + Y X+Y X+Y
    • 独立同分布(iid)
    • 联合分布期望 E [ g ( X , Y ) ] \mathbb{E}[g(X, Y)] E[g(X,Y)]
    • 方差与协方差
      • 定义
      • 性质
      • 协方差矩阵
    • 多项分布(Multinomial distribution)
    • 多项正态分布(Multivariate normal distribution)
    • 条件分布
      • 简单定义
      • 条件期望
      • 定义的缺陷
      • 更严谨的定义
      • 方差的定义
      • 性质
    • 混合分布 (Mixture distributions)
      • 多元正态分布的条件分布
      • 精度矩阵 (precision matrix)

联合分布 Joint Distribution 和 边缘分布 Marginal Distribution

定义

联合分布函数定义为:
F ( a , b ) = P ( X ≤ a , Y ≤ b ) F(a, b) = P(X \le a, Y \le b) F(a,b)=P(Xa,Yb)
联合概率质量函数(Joint PMF)定义为:
p ( x , y ) = P ( X = x , Y = y ) p(x, y) = P(X = x, Y = y) p(x,y)=P(X=x,Y=y)
如果 X , Y X, Y X,Y联合连续的(jointly continuous),当存在一个联合概率密度函数(Joint PDF),满足对任意Borel集合 C ⊂ R 2 C \subset \mathbb{R}^2 CR2
P ( ( X , Y ) ∈ C ) = ∬ C f ( x , y ) d x d y P((X, Y) \in C) = \iint_C f(x, y) dx dy P((X,Y)C)=Cf(x,y)dxdy

定义 X X X边缘分布函数为( Y Y Y同理):
F X ( a ) = P ( X ≤ a ) = P ( X ≤ a , Y < ∞ ) = F ( a , ∞ ) F_X(a) = P(X \leq a) = P(X \leq a, Y < \infty) = F(a, \infty) FX(a)=P(Xa)=P(Xa,Y<)=F(a,)
离散情况下, X X X 的边缘 PMF为:
p X ( x ) = ∑ y p ( x , y ) p_X(x) = \sum_y p(x, y) pX(x)=yp(x,y)
连续情况下, X X X 的边缘 PDF为:
f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f_X(x) = \int_{-\infty}^{+\infty} f(x, y) \, dy fX(x)=+f(x,y)dy

它们之间满足以下关系:
F ( a , b ) = ∫ − ∞ b ∫ − ∞ a f ( x , y ) d x d y f ( a , b ) = ∂ 2 ∂ a ∂ b F ( a , b ) P ( X ∈ A ) = ∫ A ( ∫ − ∞ + ∞ f ( x , y ) d y ) d x = ∫ A f X ( x ) d x \begin{align*} F(a, b) &= \int_{-\infty}^b\int_{-\infty}^af(x, y)dxdy \\ f(a, b) &= \frac{\partial^2}{\partial a\partial b}F(a, b) \\ P(X \in A) &= \int_A (\int_{-\infty}^{+\infty}f(x, y)dy)dx = \int_A f_X(x)dx \end{align*} F(a,b)f(a,b)P(XA)=baf(x,y)dxdy=ab2F(a,b)=A(+f(x,y)dy)dx=AfX(x)dx

对于矩形区域,有:
P ( a 1 < X ≤ a 2 , b 1 < Y ≤ b 2 ) = F ( a 2 , b 2 ) − F ( a 1 , b 2 ) − F ( a 2 , b 1 ) + F ( a 1 , b 1 ) P(a_1 < X \le a_2, b_1 < Y \le b_2) = F(a_2, b_2) - F(a_1, b_2) - F(a_2, b_1) + F(a_1, b_1) P(a1<Xa2,b1<Yb2)=F(a2,b2)F(a1,b2)F(a2,b1)+F(a1,b1)

独立情况

如果定义在同一概率空间的事件 X , Y X, Y X,Y独立的,当在任意Borel集合 A , B A, B A,B上,有
P ( X ∈ A , Y ∈ B ) = P ( X ∈ A ) P ( Y ∈ B ) P(X \in A, Y \in B) = P(X \in A)P(Y \in B) P(XA,YB)=P(XA)P(YB)
这等价于
P ( X ≤ a , Y ≤ b ) = P ( X ≤ a ) P ( Y ≤ b ) , ∀ a , b ∈ R P(X \le a, Y \le b) = P(X \le a)P(Y \le b), \forall a, b \in \mathbb{R} P(Xa,Yb)=P(Xa)P(Yb),a,bR
或:
F X , Y ( x , y ) = F X ( x ) F Y ( y ) F_{X, Y}(x, y) = F_X(x)F_Y(y) FX,Y(x,y)=FX(x)FY(y)
通过这个条件我们可以证明:

  • 离散情况下, X ⊥ ⁣ ⁣ ⁣ ⊥ Y ⇔ p X , Y ( x , y ) = p X ( x ) p Y ( y ) , ∀ x , y X \perp\!\!\!\perp Y \Leftrightarrow p_{X, Y}(x, y) = p_X(x)p_Y(y), \forall x, y XYpX,Y(x,y)=pX(x)pY(y),x,y
  • 连续情况下, X ⊥ ⁣ ⁣ ⁣ ⊥ Y ⇔ f X , Y ( x , y ) = f X ( x ) f Y ( y ) , ∀ x , y X \perp\!\!\!\perp Y \Leftrightarrow f_{X, Y}(x, y) = f_X(x)f_Y(y), \forall x, y XYfX,Y(x,y)=fX(x)fY(y),x,y
  • X X X是整数(离散), Y Y Y是连续的: X ⊥ ⁣ ⁣ ⁣ ⊥ Y ⇔ P ( X = n , Y ≤ y ) = P ( X = n ) P ( Y ≤ y ) X \perp\!\!\!\perp Y \Leftrightarrow P(X=n, Y \le y)=P(X=n)P(Y\le y) XYP(X=n,Yy)=P(X=n)P(Yy)

卷积,和事件 X + Y X+Y X+Y

假设 X ⊥ ⁣ ⁣ ⁣ ⊥ Y X \perp\!\!\!\perp Y XY,且有密度函数 f X , f Y f_X, f_Y fX,fY,我们尝试写出 X + Y X+Y X+Y的分布:
F X + Y ( a ) = P ( X + Y ≤ a ) = ∬ x + y ≤ a f X ( x ) f Y ( y ) d x d y = ∫ R f Y ( y ) f X ( a − y ) d y F_{X+Y}(a) = P(X+Y \le a) = \iint_{x+y\le a}f_X(x)f_Y(y)dxdy = \int_\mathbb{R} f_Y(y)f_X(a-y)dy FX+Y(a)=P(X+Ya)=x+yafX(x)fY(y)dxdy=RfY(y)fX(ay)dy
因此
f X + Y ( a ) = ∫ R f X ( a − y ) f Y ( y ) d y f_{X+Y}(a) = \int_\mathbb{R}f_X(a-y)f_Y(y)dy fX+Y(a)=RfX(ay)fY(y)dy
于是我们定义两个函数 f , g f, g f,g卷积(convolution)为:
( f ∗ g ) ( t ) = ∫ − ∞ ∞ f ( x ) g ( t − x ) d x (f * g)(t) = \int_{-\infty}^{\infty}f(x)g(t-x)dx (fg)(t)=f(x)g(tx)dx
使用卷积符号,我们可以方便地写出在 X ⊥ ⁣ ⁣ ⁣ ⊥ Y X \perp\!\!\!\perp Y XY且连续的情况下 X + Y X+Y X+Y的分布:
f X + Y = f X ∗ f Y f_{X+Y} = f_X * f_Y fX+Y=fXfY
如果 X , Y X, Y X,Y是离散、非负、整数值的,则可以写成
P ( X + Y = n ) = ∑ k = 0 n P ( X = k ) P ( Y = n − k ) P(X+Y=n) = \sum_{k=0}^n P(X=k)P(Y=n-k) P(X+Y=n)=k=0nP(X=k)P(Y=nk)
此外,我们可以用卷积符号表示分布函数:
F ( z ) = ∫ − ∞ z f ( x ) d x = ∫ − ∞ ∞ 1 z − x ≥ 0 f ( x ) d x = ( 1 ≥ 0 ∗ f ) ( z ) F(z) = \int_{-\infty}^{z} f(x)dx = \int_{-\infty}^{\infty}1_{z-x\ge 0}f(x)dx = (1_{\ge 0} * f)(z) F(z)=zf(x)dx=1zx0f(x)dx=(10f)(z)

对于和事件 X + Y X + Y X+Y,当 X ⊥ ⁣ ⁣ ⁣ ⊥ Y X\perp\!\!\!\perp Y XY, 我们有以下性质:
X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) , X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) X ∼ Poi ( λ 1 ) , Y ∼ Poi ( λ 2 ) , X + Y ∼ Poi ( λ 1 + λ 2 ) X ∼ B ( n , p ) , Y ∼ B ( m , p ) , X + Y ∼ B ( n + m , p ) X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2), X+Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) \\ X \sim \text{Poi}(\lambda_1), Y \sim \text{Poi}(\lambda_2), X+Y \sim \text{Poi}(\lambda_1 + \lambda_2) \\ X \sim B(n, p), Y \sim B(m, p), X+Y \sim B(n+m, p) XN(μ1,σ12),YN(μ2,σ22),X+YN(μ1+μ2,σ12+σ22)XPoi(λ1),YPoi(λ2),X+YPoi(λ1+λ2)XB(n,p),YB(m,p),X+YB(n+m,p)

独立同分布(iid)

同分布(identically distributed)的意思是:多个随机变量具有相同的概率分布。
如果 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn满足:

  • 它们是独立的
  • 它们都是同分布的

则称它们是独立同分布的,简写为 i . i . d . i.i.d. i.i.d.

性质:

  • 如果 X , Y X, Y X,Y i . i . d . i.i.d. i.i.d.,则 P ( X > Y ) = P ( Y > X ) P(X>Y) = P(Y>X) P(X>Y)=P(Y>X),如果 X , Y X,Y X,Y是连续的,则 P ( X > Y ) = 0.5 P(X>Y) = 0.5 P(X>Y)=0.5
  • 如果 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn是连续且 i . i . d . i.i.d. i.i.d.,则 P ( X 1 > X 2 > . . . > X n ) = 1 n ! P(X_1 > X_2 > ... > X_n) = \frac{1}{n!} P(X1>X2>...>Xn)=n!1
  • 如果 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn 是独立同分布(i.i.d.)的随机变量,且每一个 X i X_i Xi都服从伯努利分布(Bernoulli distribution),即 X i ∼ Ber ( p ) X_i \sim \text{Ber}(p) XiBer(p)。则:
    ∑ i = 1 n X i ∼ B ( n , p ) \sum_{i=1}^n X_i \sim B(n, p) i=1nXiB(n,p)

联合分布期望 E [ g ( X , Y ) ] \mathbb{E}[g(X, Y)] E[g(X,Y)]

如果你有两个随机变量 X , Y X, Y X,Y,它们合起来有一个联合分布pmf: p ( x , y ) p(x, y) p(x,y),或联合概率密度函数 pdf: f ( x , y ) f(x, y) f(x,y),则对任意一个函数 g ( x , y ) g(x, y) g(x,y),它的期望可以计算为:
E [ g ( X , Y ) ] = ∑ x , y g ( x , y ) p ( x , y ) E [ g ( X , Y ) ] = ∬ g ( x , y ) f ( x , y ) d x d y \mathbb{E}[g(X, Y)] = \underset{x, y}{\sum}g(x, y)p(x,y) \\ \mathbb{E}[g(X, Y)] = \iint g(x, y)f(x, y)dxdy E[g(X,Y)]=x,yg(x,y)p(x,y)E[g(X,Y)]=g(x,y)f(x,y)dxdy
一般形式可以写成:
E [ g ( X , Y ) ] = ∬ g ( x , y ) d F ( x , y ) \mathbb{E}[g(X, Y)] = \iint g(x, y)dF(x, y) E[g(X,Y)]=g(x,y)dF(x,y)

将这个结果应用到 g ( X , Y ) = X + Y g(X, Y) = X + Y g(X,Y)=X+Y中,有
E ( X + Y ) = E X + E Y \mathbb{E}(X+Y) = \mathbb{E}X + \mathbb{E}Y E(X+Y)=EX+EY
这个结果与是否独立无关!
而如果 X ⊥ ⁣ ⁣ ⁣ ⊥ Y X \perp \!\!\!\perp Y XY,有以下结果:
E ( h ( X ) ⋅ m ( Y ) ) = E ( h ( X ) ) ⋅ E ( m ( Y ) ) \mathbb{E}(h(X) \cdot m(Y)) = \mathbb{E}(h(X)) \cdot \mathbb{E}(m(Y)) E(h(X)m(Y))=E(h(X))E(m(Y))

方差与协方差

定义

我们已经推导了:
Var ( X + Y ) = E ( X 2 + 2 X Y + Y 2 ) − ( ( E X ) 2 + ( E Y ) 2 + 2 E X E Y ) = Var ( X ) + Var ( Y ) + 2 ( E ( X Y ) − E X E Y ) \begin{align*} \text{Var}(X+Y) &= \mathbb{E}(X^2 + 2XY + Y^2) - ((\mathbb{E}X)^2 + (\mathbb{E}Y)^2+2\mathbb{E}X \mathbb{E}Y) \\ &= \text{Var}(X) + \text{Var}(Y) + 2(\mathbb{E}(XY) - \mathbb{E}X\mathbb{E}Y) \end{align*} Var(X+Y)=E(X2+2XY+Y2)((EX)2+(EY)2+2EXEY)=Var(X)+Var(Y)+2(E(XY)EXEY)
E ( X Y ) − E X E Y = E [ ( X − E X ) ( Y − E Y ) ] \mathbb{E}(XY) - \mathbb{E}X \mathbb{E}Y = \mathbb{E}[(X-\mathbb{E}X)(Y-\mathbb{E}Y)] E(XY)EXEY=E[(XEX)(YEY)]
我们把它定义为 X , Y X, Y X,Y之间的协方差:
Cov ( X , Y ) : = E [ ( X − E X ) ( Y − E Y ) ] \text{Cov}(X, Y) := \mathbb{E}[(X-\mathbb{E}X)(Y-\mathbb{E}Y)] Cov(X,Y):=E[(XEX)(YEY)]
如果 Cov ( X , Y ) = 0 \text{Cov}(X, Y) = 0 Cov(X,Y)=0,则称 X , Y X, Y X,Y不相关的(uncorrelated)。 X , Y X,Y X,Y独立能推出 X , Y X, Y X,Y不相关。

性质

  • 交换性(Symmetry): Cov ( X , Y ) = Cov ( Y , X ) \text{Cov}(X, Y) = \text{Cov}(Y, X) Cov(X,Y)=Cov(Y,X)
  • 自协方差: Cov ( X , X ) = Var ( X ) \text{Cov}(X, X) = \text{Var}(X) Cov(X,X)=Var(X)
  • 线性性(Linearity): Cov ( X , a Y + b Z ) = a Cov ( X , Y ) + b Cov ( X , Z ) \text{Cov}(X, aY+bZ) = a\text{Cov}(X, Y) + b\text{Cov}(X, Z) Cov(X,aY+bZ)=aCov(X,Y)+bCov(X,Z)
  • 受限性(Boundedness): ∣ Cov ( X , Y ) ∣ ≤ Var ( X ) Var ( Y ) |\text{Cov}(X, Y)| \le \sqrt{\text{Var}(X)\text{Var}(Y)} Cov(X,Y)Var(X)Var(Y)
    通常定义相关系数(Correlation)为:
    ρ = Cov ( X , Y ) Var ( X ) Var ( Y ) \rho = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)}\sqrt{\text{Var}(Y)}} ρ=Var(X) Var(Y) Cov(X,Y)

由定义有:
Var ( X + Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X , Y ) \text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
进一步的有:
Var ( ∑ c i X i ) = ∑ c i 2 Var ( X i ) + 2 ∑ i < j c i c j Cov ( X i , X j ) \text{Var}(\sum c_iX_i) = \sum c_i^2\text{Var}(X_i) + 2\sum_{i<j}c_ic_j\text{Cov}(X_i, X_j) Var(ciXi)=ci2Var(Xi)+2i<jcicjCov(Xi,Xj)

协方差矩阵

对两个随机向量 X ∈ R n , Y ∈ R m X \in \mathbb{R}^n, Y \in \mathbb{R}^m XRn,YRm,协方差定义为:
C o v ( X , Y ) : = E [ ( X − E X ) ( Y − E Y ) ⊤ ] ∈ R n × m Cov(X, Y):= \mathbb{E}[(X - \mathbb{E}X)(Y-\mathbb{E}Y)^\top] \in \mathbb{R}^{n \times m} Cov(X,Y):=E[(XEX)(YEY)]Rn×m
于是有$ C o v ( Y , X ) = [ C o v ( X , Y ) ] ⊤ Cov(Y, X) = [Cov(X, Y)]^\top Cov(Y,X)=[Cov(X,Y)]

对于一个随机向量 X = ( X 1 , . . . , X n ) X = (X_1, ..., X_n) X=(X1,...,Xn),它的协方差矩阵定义记为 V a r ( X ) Var(X) Var(X) C o v ( X ) Cov(X) Cov(X),定义为:
C o v ( X ) = E [ ( X − E X ) ( X − E X ) ⊤ ] = [ C o v ( X i , X j ) ] ∈ R n × n Cov(X) = \mathbb{E}[(X - \mathbb{E}X)(X-\mathbb{E}X)^\top] = [Cov(X_i, X_j)] \in \mathbb{R}^{n \times n} Cov(X)=E[(XEX)(XEX)]=[Cov(Xi,Xj)]Rn×n
C o v ( X ) Cov(X) Cov(X)总是半正定的(psd)且交换的。
线性变换:
Cov ( A X , Y ) = A Cov ( X , Y ) Cov ( A X ) = A ⋅ Cov ( X ) ⋅ A ⊤ \text{Cov}(AX, Y) = A\text{Cov}(X, Y) \\ \text{Cov}(AX) = A\cdot \text{Cov}(X) \cdot A^\top Cov(AX,Y)=ACov(X,Y)Cov(AX)=ACov(X)A

多项分布(Multinomial distribution)

k 1 + . . . + k m = n , p 1 + . . . + p m = 1 k_1 + ... + k_m = n, p_1 + ... + p_m = 1 k1+...+km=n,p1+...+pm=1
如果随机变量 X = ( X 1 , . . . , X m ) X = (X_1, ..., X_m) X=(X1,...,Xm)满足:
P ( X 1 = k 1 , . . . , X m = k m ) = n ! k 1 ! . . . k m ! p 1 k 1 . . . p n k n P(X_1=k_1, ..., X_m=k_m) = \frac{n!}{k_1!...k_m!}p_1^{k_1}...p_n^{k_n} P(X1=k1,...,Xm=km)=k1!...km!n!p1k1...pnkn
则记作 X ∼ Mult ( n ; p 1 , . . . , p m ) X \sim \text{Mult}(n; p_1, ..., p_m) XMult(n;p1,...,pm)

随机向量 X = ( X 1 , . . . , X m ) X=(X_1, ..., X_m) X=(X1,...,Xm)表示在 n n n 次试验中,每个类别出现的次数。其中每个试验中第 i i i 个类别的发生概率为 p i p_i pi

多项正态分布(Multivariate normal distribution)

一个 n n n维随机向量 X X X是多项正态的,均值为 μ \mu μ,协方差为 ∑ ∈ S + + n \sum \in \mathbb{S}^n_{++} S++n,当它有密度:
f ( x ) = 1 ( 2 π ) n / 2 ∣ ∑ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) ⊤ ∑ − 1 ( x − μ ) ) f(x) = \frac{1}{(2\pi)^{n/2}|\sum|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^\top \sum^{-1}(x-\mu)\right) f(x)=(2π)n/21/21exp(21(xμ)1(xμ))

这里 S + + n \mathbb{S}^n_{++} S++n表示所有正定矩阵;我们记这样的 X X X为: X ∼ N ( μ , ∑ ) ) X\sim \mathcal{N}(\mu, \sum)) XN(μ,))

性质:

  • X ∼ N ( μ , ∑ ) ) ⇒ A X ∼ N ( A μ , A ∑ A ⊤ ) ) , ∀ A ∈ R m × n X \sim \mathcal{N}(\mu, \sum)) \Rightarrow AX \sim \mathcal{N}(A\mu, A\sum A^\top)), \forall A \in \mathbb{R}^{m \times n} XN(μ,))AXN(Aμ,AA)),ARm×n
    对于特殊情况 A = α ⊤ A = \alpha^\top A=α < α , X > ∼ N ( α ⊤ μ , α ⊤ ∑ α ) \left<\alpha, X\right> \sim \mathcal{N}(\alpha^\top \mu, \alpha^\top \sum \alpha) α,XN(αμ,αα)。这说明任意 X i X_i Xi的线性组合都是正态分布。
  • E X = μ , V a r ( X ) = ∑ \mathbb{E}X = \mu, Var(X) = \sum EX=μ,Var(X)=

条件分布

简单定义

  • 如果 X , Y X, Y X,Y是离散型变量,则
    p X ∣ Y ( x ∣ y ) = p ( x , y ) p Y ( y ) p_{X\mid Y}(x\mid y) = \frac{p(x, y)}{p_Y(y)} pXY(xy)=pY(y)p(x,y)
  • 如果 X , Y X, Y X,Y是连续型变量,则 f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X\mid Y}(x\mid y)=\frac{f(x, y)}{f_Y(y)} fXY(xy)=fY(y)f(x,y)

条件期望

  • 离散情况 E [ X ∣ Y = y ] = ∑ x x ⋅ p X ∣ Y ( x ∣ y ) \mathbb{E}[X\mid Y=y] = \underset{x}{\sum}x \cdot p_{X\mid Y}(x\mid y) E[XY=y]=xxpXY(xy)
  • 连续情况 E [ X ∣ Y = y ] = ∫ x ⋅ f X ∣ Y ( x ∣ y ) d x \mathbb{E}[X\mid Y=y] = \int x \cdot f_{X\mid Y}(x\mid y)dx E[XY=y]=xfXY(xy)dx

所以条件期望 E [ X ∣ Y = y ] \mathbb{E}[X\mid Y=y] E[XY=y]是一个依赖于 Y Y Y的随机变量,我们将它记为 g ( Y ) = E [ X ∣ Y ] g(Y) = \mathbb{E}[X\mid Y] g(Y)=E[XY]

定义的缺陷

考虑连续的变量 X , Y X, Y X,Y,事件 A ∈ σ ( X , Y ) A \in \sigma(X, Y) Aσ(X,Y) P ( A ) > 0 P(A) > 0 P(A)>0
E [ X ∣ A ] \mathbb{E}[X\mid A] E[XA]可以被定义为在条件概率密度下 X X X的均值,即
f X ∣ A ( x ) = ∫ f X , Y ( x , y ) 1 A ( x , y ) d y P ( A ) f_{X\mid A}(x) = \frac{\int f_{X,Y}(x, y)1_A(x, y)dy}{P(A)} fXA(x)=P(A)fX,Y(x,y)1A(x,y)dy
所以有:
E [ X ∣ A ] = ∫ x f X ∣ A ( x ) d x = E [ X ⋅ 1 A ] P ( A ) P ( B ∣ A ) = E [ 1 B ∣ A ] = E [ 1 B 1 A ] P ( A ) = P ( A ∩ B ) P ( A ) \mathbb{E}[X\mid A]=\int xf_{X\mid A}(x)dx = \frac{\mathbb{E}[X\cdot 1_A]}{P(A)} \\ \ \\ P(B\mid A) = \mathbb{E}[1_B \mid A] = \frac{\mathbb{E}[1_B1_A]}{P(A)} = \frac{P(A\cap B)}{P(A)} E[XA]=xfXA(x)dx=P(A)E[X1A] P(BA)=E[1BA]=P(A)E[1B1A]=P(A)P(AB)

如果令 A = { Y = y } A = \set{Y = y} A={Y=y},可以在事件 Y ∈ [ y , y + d y ] Y \in [y, y+dy] Y[y,y+dy]上取极限:
f X ∣ { Y = y } ( x ) : = lim ⁡ d y → 0 ∫ y y + d y f X , Y ( x , z ) d z P ( Y ∈ ( y , y + d y ) ) = ? f X , Y ( x , y ) d y f Y ( y ) d y \begin{align*} f_{X\mid \set{Y=y}}(x):&=\underset{dy\to 0}{\lim}\frac{\int_y^{y+dy} f_{X,Y}(x, z)dz}{P(Y\in (y, y+dy))} \\ &\overset{?}{=} \frac{f_{X, Y}(x, y)dy}{f_Y(y)dy} \end{align*} fX{Y=y}(x):=dy0limP(Y(y,y+dy))yy+dyfX,Y(x,z)dz=?fY(y)dyfX,Y(x,y)dy
这里会出现问题,体现了这种定义的缺陷【?没看懂】

更严谨的定义

严谨的定义不再是条件分布,而是条件期望 E [ X ∣ G ] \mathbb{E}[X\mid \mathcal{G}] E[XG],这里 G \mathcal{G} G不是事件,而是信息的集合(形式上是一个 σ \sigma σ代数)

关键思想:先基于 σ ( Y ) \sigma(Y) σ(Y)全局定义 E [ X ∣ Y ] \mathbb{E}[X\mid Y] E[XY],然后在特定的 y y y处取值,而不是反过来(先定义点值再推广)

定义: E [ X ∣ σ ( Y ) ] \mathbb{E}[X | \sigma(Y)] E[Xσ(Y)] 是唯一一个 σ ( Y ) \sigma(Y) σ(Y)-可测的随机变量(即属于 σ ( Y ) \sigma(Y) σ(Y) 生成的σ-代数),记作 h ( Y ) h(Y) h(Y),使得对于所有 A ∈ σ ( Y ) A \in \sigma(Y) Aσ(Y)
∫ A E [ X ∣ σ ( Y ) ] d P = ∫ A X d P \int_A \mathbb{E}[X | \sigma(Y)] dP = \int_A X dP AE[Xσ(Y)]dP=AXdP
这里的 h ( Y ) h(Y) h(Y) 就是 E [ X ∣ σ ( Y ) ] \mathbb{E}[X | \sigma(Y)] E[Xσ(Y)]。【 σ ( Y ) \sigma(Y) σ(Y) 的完备性保证了唯一性】

这样对于特定的 y y y E [ X ∣ Y = y ] \mathbb{E}[X\mid Y=y] E[XY=y]就是在 Y = y Y=y Y=y处对 h ( Y ) h(Y) h(Y)测度。

方差的定义

V a r ( X ∣ Y ) : = E [ ( X − E [ X ∣ Y ] ) 2 ∣ Y ] Var(X\mid Y) := \mathbb{E}[(X-\mathbb{E}[X\mid Y])^2\mid Y] Var(XY):=E[(XE[XY])2Y]

V a r ( X ∣ Y = y ) : = E [ ( X − E [ X ∣ Y = y ] ) 2 ∣ Y = y ] Var(X\mid Y=y):=\mathbb{E}[(X-\mathbb{E}[X\mid Y=y])^2\mid Y=y] Var(XY=y):=E[(XE[XY=y])2Y=y]

性质

  • 线性性 E [ a X + b Z ∣ Y ] = a E [ X ∣ Y ] + b E [ Z ∣ Y ] \mathbb{E}[aX+bZ\mid Y] = a\mathbb{E}[X\mid Y] + b\mathbb{E}[Z\mid Y] E[aX+bZY]=aE[XY]+bE[ZY]
  • 如果 X ≥ 0 X \ge 0 X0,则 E [ X ∣ Y ] ≥ 0 \mathbb{E}[X\mid Y] \ge 0 E[XY]0
  • 琴生(Jensen): g ( E [ X ∣ Y ] ) ≤ E [ g ( X ) ∣ Y ] g(\mathbb{E}[X\mid Y]) \le \mathbb{E}[g(X)\mid Y] g(E[XY])E[g(X)Y],如果 g g g是凸的。
  • 如果 X ⊥ ⁣ ⁣ ⁣ ⊥ Y X \perp \!\!\!\perp Y XY,则 E [ X ∣ Y ] = E [ X ] \mathbb{E}[X\mid Y] = \mathbb{E}[X] E[XY]=E[X]
  • 如果 X X X σ ( Y ) \sigma(Y) σ(Y)可测的,则 E [ X ∣ Y ] = X \mathbb{E}[X\mid Y] = X E[XY]=X
  • Tower property E [ E [ X ∣ Y , Z ] ∣ Y ] = E [ X ∣ Y ] \mathbb{E}[\mathbb{E}[X\mid Y, Z] \mid Y] = \mathbb{E}[X\mid Y] E[E[XY,Z]Y]=E[XY]
  • 全期望定律(Law of total expectation): E [ E [ X ∣ Y ] ] = E [ X ] \mathbb{E}[\mathbb{E}[X\mid Y]] = \mathbb{E}[X] E[E[XY]]=E[X]
  • 全方差定律(Law of total variance) V a r ( X ) = E [ V a r ( X ∣ Y ) ] + V a r ( E [ X ∣ Y ] ) Var(X) = \mathbb{E}[Var(X\mid Y)] + Var(\mathbb{E}[X\mid Y]) Var(X)=E[Var(XY)]+Var(E[XY])

混合分布 (Mixture distributions)

假设存在一个潜在类别变量 I ∼ m ( 1 , [ p i ] 1 ≤ i ≤ m ) I \sim m(1, [p_i]_{1\le i\le m}) Im(1,[pi]1im),即 I I I是一个取值为 1 1 1 m m m的离散随机变量,概率为 p i p_i pi
给定 I = i I=i I=i时,观测变量 X X X的分布为 F i F_i Fi,即 [ X ∣ I = i ] ∼ F i [X\mid I = i] \sim F_i [XI=i]Fi
那么总体上,称 X X X的分布是一个混合分布
F X ( x ) = p 1 F 1 ( x ) + . . . + p m F m ( x ) F_X(x) = p_1F_1(x) + ... + p_mF_m(x) FX(x)=p1F1(x)+...+pmFm(x)
如果每个 F i F_i Fi有密度函数 f i ( x ) f_i(x) fi(x),则联合密度为:
f X ( x ) = p 1 f 1 ( x ) + . . . + p m f m ( x ) f_X(x) = p_1f_1(x) + ... + p_mf_m(x) fX(x)=p1f1(x)+...+pmfm(x)

特别的,当每个成分都是正态分布时, X X X称为高斯混合模型(GMM)
f X ( x ) = p 1 N ( μ 1 , Σ 1 ) + . . . + p m N ( μ m , Σ m ) f_X(x) = p_1\mathcal{N}(\mu_1, \Sigma_1) + ... + p_m\mathcal{N}(\mu_m, \Sigma_m) fX(x)=p1N(μ1,Σ1)+...+pmN(μm,Σm)

还有一种特殊的混合模型,用于处理数据中过多的零值:
P ( X = x ) = π δ 0 ( x ) + ( 1 − π ) Poi ( x ; λ ) P(X = x) = \pi \delta_0(x) + (1-\pi)\text{Poi}(x;\lambda) P(X=x)=πδ0(x)+(1π)Poi(x;λ)
其中:

  • π \pi π表示额外的 0 0 0发生的概率
  • ( 1 − π ) (1-\pi) (1π)是来自泊松分布的概率
  • δ 0 \delta_0 δ0 x = 0 x=0 x=0处的点质量。

多元正态分布的条件分布

如果 x ∼ N ( 0 , Σ ) x \sim \mathcal{N}(0, \Sigma) xN(0,Σ),其中 Σ = [ A B C D ] \Sigma = \begin{bmatrix} A & B\\ C & D \end{bmatrix} Σ=[ACBD],我们可以证明:
x A ∣ x D ∼ N ( 0 , A − B D − 1 C ) x_A \mid x_D \sim \mathcal{N}(0, A-BD^{-1}C) xAxDN(0,ABD1C)
如果设 Ω = Σ − 1 \Omega = \Sigma^{-1} Ω=Σ1,则也可以写成:
x A ∣ x D ∼ N ( 0 , [ Ω A ] − 1 ) x_A\mid x_D \sim \mathcal{N}(0, [\Omega_A]^{-1}) xAxDN(0,[ΩA]1)

精度矩阵 (precision matrix)

多元正态分布的概率密度函数可以自然地用精度矩阵(也称浓度矩阵) Ω = Σ − 1 \Omega = \Sigma^{-1} Ω=Σ1来参数化。
f ( x ) ∝ exp ⁡ ( − 1 2 ( x − μ ) ⊤ Ω ( x − μ ) ) f(x) \propto \exp\left(-\frac{1}{2}(x-\mu)^\top\Omega(x-\mu)\right) f(x)exp(21(xμ)Ω(xμ))

  • 精度矩阵 Ω \Omega Ω编码的是变量之间的条件依赖关系(conditional dependencies)
  • 协方差矩阵 Σ \Sigma Σ编码的是边际依赖关系(marginal dependencies)
  • 换句话说:协方差反映的是变量间的直接相关性;而精度矩阵反映的是在给定其他所有变量的情况下,两个变量是否还相互依赖。

如果精度矩阵中某个元素 Ω i j = 0 \Omega_{ij}=0 Ωij=0,则表示变量 X i X_i Xi X j X_j Xj在给定其他所有变量的条件下是独立的(conditionally independent):
f ( x 1 , x 2 ∣ x ⊥ ) = f ( x 1 ∣ x ⊥ ) ⋅ f ( x 2 ∣ x ⊥ ) f(x_1, x_2 \mid x_\perp) = f(x_1 \mid x_\perp) \cdot f(x_2 \mid x_\perp) f(x1,x2x)=f(x1x)f(x2x)
其中 x ⊥ x_\perp x表示除 x 1 x_1 x1 x 2 x_2 x2外的所有其他变量。

http://www.dtcms.com/a/519577.html

相关文章:

  • 自建企业级演示中心:不用租Office,PPTist+cpolar方案实测
  • ubuntu22+postgresql18启动报错
  • 如何做好电商网站平面设计wordpress接入翼支付宝
  • 网站 建设初步下载安装wordpress 主题
  • numpy 广播详解(Broadcasting)​​
  • 【数据结构】 [特殊字符] 顺序表详解——数据结构的第一块基石
  • 企业级安全运营中心(SOC)建设实战:从威胁检测到自动化响应
  • 分布式存储Ceph与OpenStack、RAID的关系
  • “五金件自动化上下料”革新:人形机器人如何重塑柔性制造
  • 多线程六脉神剑第二剑:监视器锁 (Monitor)
  • 飞书多维表格自动化做音视频文案提取,打造素材库工作流,1分钟学会
  • 基于主题聚类的聊天数据压缩与智能检索系统
  • 结构健康自动化监测在云端看数据变化,比人工更及时精准,优缺点分析?
  • 做夹具需要知道的几个网站服装页面设计的网站
  • 分享影视资源的网站怎么做网站字头优化
  • 照明回路配线-批量测量超实用
  • Python 条件判断机制本质
  • 关于spiderdemo第二题的奇思妙想
  • Python处理指定目录下文件分析操作体系化总结
  • k8s部署自动化工具jenkins
  • YOLOv5 目标检测算法详解(一)
  • No040:陪伴的艺术——当DeepSeek学会在时光中温柔在场
  • 6-1〔O҉S҉C҉P҉ ◈ 研记〕❘ 客户端攻击▸侦查客户端指纹
  • 苏州企业网站设计企业phpstudy如何建设网站
  • 仿站网站域名网站建设数据库实验心得
  • 怎么看电脑的主板BIOS型号
  • 广东省高校质量工程建设网站管理登陆网站开发软件
  • 压缩与缓存调优实战指南:从0到1根治性能瓶颈(一)
  • LeetCode 381: O(1) 时间插入、删除和获取随机元素 - 允许重复
  • 一次RedisOOM 排查