【课堂笔记】概率论-2
文章目录
- 联合分布 Joint Distribution 和 边缘分布 Marginal Distribution
- 定义
- 独立情况
- 卷积,和事件 X + Y X+Y X+Y
- 独立同分布(iid)
- 联合分布期望 E [ g ( X , Y ) ] \mathbb{E}[g(X, Y)] E[g(X,Y)]
- 方差与协方差
- 定义
- 性质
- 协方差矩阵
- 多项分布(Multinomial distribution)
- 多项正态分布(Multivariate normal distribution)
- 条件分布
- 简单定义
- 条件期望
- 定义的缺陷
- 更严谨的定义
- 方差的定义
- 性质
- 混合分布 (Mixture distributions)
- 多元正态分布的条件分布
- 精度矩阵 (precision matrix)
联合分布 Joint Distribution 和 边缘分布 Marginal Distribution
定义
联合分布函数定义为:
F ( a , b ) = P ( X ≤ a , Y ≤ b ) F(a, b) = P(X \le a, Y \le b) F(a,b)=P(X≤a,Y≤b)
联合概率质量函数(Joint PMF)定义为:
p ( x , y ) = P ( X = x , Y = y ) p(x, y) = P(X = x, Y = y) p(x,y)=P(X=x,Y=y)
如果 X , Y X, Y X,Y是联合连续的(jointly continuous),当存在一个联合概率密度函数(Joint PDF),满足对任意Borel集合 C ⊂ R 2 C \subset \mathbb{R}^2 C⊂R2
P ( ( X , Y ) ∈ C ) = ∬ C f ( x , y ) d x d y P((X, Y) \in C) = \iint_C f(x, y) dx dy P((X,Y)∈C)=∬Cf(x,y)dxdy
定义 X X X的边缘分布函数为( Y Y Y同理):
F X ( a ) = P ( X ≤ a ) = P ( X ≤ a , Y < ∞ ) = F ( a , ∞ ) F_X(a) = P(X \leq a) = P(X \leq a, Y < \infty) = F(a, \infty) FX(a)=P(X≤a)=P(X≤a,Y<∞)=F(a,∞)
离散情况下, X X X 的边缘 PMF为:
p X ( x ) = ∑ y p ( x , y ) p_X(x) = \sum_y p(x, y) pX(x)=y∑p(x,y)
连续情况下, X X X 的边缘 PDF为:
f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f_X(x) = \int_{-\infty}^{+\infty} f(x, y) \, dy fX(x)=∫−∞+∞f(x,y)dy
它们之间满足以下关系:
F ( a , b ) = ∫ − ∞ b ∫ − ∞ a f ( x , y ) d x d y f ( a , b ) = ∂ 2 ∂ a ∂ b F ( a , b ) P ( X ∈ A ) = ∫ A ( ∫ − ∞ + ∞ f ( x , y ) d y ) d x = ∫ A f X ( x ) d x \begin{align*} F(a, b) &= \int_{-\infty}^b\int_{-\infty}^af(x, y)dxdy \\ f(a, b) &= \frac{\partial^2}{\partial a\partial b}F(a, b) \\ P(X \in A) &= \int_A (\int_{-\infty}^{+\infty}f(x, y)dy)dx = \int_A f_X(x)dx \end{align*} F(a,b)f(a,b)P(X∈A)=∫−∞b∫−∞af(x,y)dxdy=∂a∂b∂2F(a,b)=∫A(∫−∞+∞f(x,y)dy)dx=∫AfX(x)dx
对于矩形区域,有:
P ( a 1 < X ≤ a 2 , b 1 < Y ≤ b 2 ) = F ( a 2 , b 2 ) − F ( a 1 , b 2 ) − F ( a 2 , b 1 ) + F ( a 1 , b 1 ) P(a_1 < X \le a_2, b_1 < Y \le b_2) = F(a_2, b_2) - F(a_1, b_2) - F(a_2, b_1) + F(a_1, b_1) P(a1<X≤a2,b1<Y≤b2)=F(a2,b2)−F(a1,b2)−F(a2,b1)+F(a1,b1)
独立情况
如果定义在同一概率空间的事件 X , Y X, Y X,Y是独立的,当在任意Borel集合 A , B A, B A,B上,有
P ( X ∈ A , Y ∈ B ) = P ( X ∈ A ) P ( Y ∈ B ) P(X \in A, Y \in B) = P(X \in A)P(Y \in B) P(X∈A,Y∈B)=P(X∈A)P(Y∈B)
这等价于
P ( X ≤ a , Y ≤ b ) = P ( X ≤ a ) P ( Y ≤ b ) , ∀ a , b ∈ R P(X \le a, Y \le b) = P(X \le a)P(Y \le b), \forall a, b \in \mathbb{R} P(X≤a,Y≤b)=P(X≤a)P(Y≤b),∀a,b∈R
或:
F X , Y ( x , y ) = F X ( x ) F Y ( y ) F_{X, Y}(x, y) = F_X(x)F_Y(y) FX,Y(x,y)=FX(x)FY(y)
通过这个条件我们可以证明:
- 离散情况下, X ⊥ ⊥ Y ⇔ p X , Y ( x , y ) = p X ( x ) p Y ( y ) , ∀ x , y X \perp\!\!\!\perp Y \Leftrightarrow p_{X, Y}(x, y) = p_X(x)p_Y(y), \forall x, y X⊥⊥Y⇔pX,Y(x,y)=pX(x)pY(y),∀x,y
- 连续情况下, X ⊥ ⊥ Y ⇔ f X , Y ( x , y ) = f X ( x ) f Y ( y ) , ∀ x , y X \perp\!\!\!\perp Y \Leftrightarrow f_{X, Y}(x, y) = f_X(x)f_Y(y), \forall x, y X⊥⊥Y⇔fX,Y(x,y)=fX(x)fY(y),∀x,y
- X X X是整数(离散), Y Y Y是连续的: X ⊥ ⊥ Y ⇔ P ( X = n , Y ≤ y ) = P ( X = n ) P ( Y ≤ y ) X \perp\!\!\!\perp Y \Leftrightarrow P(X=n, Y \le y)=P(X=n)P(Y\le y) X⊥⊥Y⇔P(X=n,Y≤y)=P(X=n)P(Y≤y)
卷积,和事件 X + Y X+Y X+Y
假设 X ⊥ ⊥ Y X \perp\!\!\!\perp Y X⊥⊥Y,且有密度函数 f X , f Y f_X, f_Y fX,fY,我们尝试写出 X + Y X+Y X+Y的分布:
F X + Y ( a ) = P ( X + Y ≤ a ) = ∬ x + y ≤ a f X ( x ) f Y ( y ) d x d y = ∫ R f Y ( y ) f X ( a − y ) d y F_{X+Y}(a) = P(X+Y \le a) = \iint_{x+y\le a}f_X(x)f_Y(y)dxdy = \int_\mathbb{R} f_Y(y)f_X(a-y)dy FX+Y(a)=P(X+Y≤a)=∬x+y≤afX(x)fY(y)dxdy=∫RfY(y)fX(a−y)dy
因此
f X + Y ( a ) = ∫ R f X ( a − y ) f Y ( y ) d y f_{X+Y}(a) = \int_\mathbb{R}f_X(a-y)f_Y(y)dy fX+Y(a)=∫RfX(a−y)fY(y)dy
于是我们定义两个函数 f , g f, g f,g的卷积(convolution)为:
( f ∗ g ) ( t ) = ∫ − ∞ ∞ f ( x ) g ( t − x ) d x (f * g)(t) = \int_{-\infty}^{\infty}f(x)g(t-x)dx (f∗g)(t)=∫−∞∞f(x)g(t−x)dx
使用卷积符号,我们可以方便地写出在 X ⊥ ⊥ Y X \perp\!\!\!\perp Y X⊥⊥Y且连续的情况下 X + Y X+Y X+Y的分布:
f X + Y = f X ∗ f Y f_{X+Y} = f_X * f_Y fX+Y=fX∗fY
如果 X , Y X, Y X,Y是离散、非负、整数值的,则可以写成
P ( X + Y = n ) = ∑ k = 0 n P ( X = k ) P ( Y = n − k ) P(X+Y=n) = \sum_{k=0}^n P(X=k)P(Y=n-k) P(X+Y=n)=k=0∑nP(X=k)P(Y=n−k)
此外,我们可以用卷积符号表示分布函数:
F ( z ) = ∫ − ∞ z f ( x ) d x = ∫ − ∞ ∞ 1 z − x ≥ 0 f ( x ) d x = ( 1 ≥ 0 ∗ f ) ( z ) F(z) = \int_{-\infty}^{z} f(x)dx = \int_{-\infty}^{\infty}1_{z-x\ge 0}f(x)dx = (1_{\ge 0} * f)(z) F(z)=∫−∞zf(x)dx=∫−∞∞1z−x≥0f(x)dx=(1≥0∗f)(z)
对于和事件 X + Y X + Y X+Y,当 X ⊥ ⊥ Y X\perp\!\!\!\perp Y X⊥⊥Y, 我们有以下性质:
X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) , X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) X ∼ Poi ( λ 1 ) , Y ∼ Poi ( λ 2 ) , X + Y ∼ Poi ( λ 1 + λ 2 ) X ∼ B ( n , p ) , Y ∼ B ( m , p ) , X + Y ∼ B ( n + m , p ) X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2), X+Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) \\ X \sim \text{Poi}(\lambda_1), Y \sim \text{Poi}(\lambda_2), X+Y \sim \text{Poi}(\lambda_1 + \lambda_2) \\ X \sim B(n, p), Y \sim B(m, p), X+Y \sim B(n+m, p) X∼N(μ1,σ12),Y∼N(μ2,σ22),X+Y∼N(μ1+μ2,σ12+σ22)X∼Poi(λ1),Y∼Poi(λ2),X+Y∼Poi(λ1+λ2)X∼B(n,p),Y∼B(m,p),X+Y∼B(n+m,p)
独立同分布(iid)
同分布(identically distributed)的意思是:多个随机变量具有相同的概率分布。
如果 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn满足:
- 它们是独立的
- 它们都是同分布的
则称它们是独立同分布的,简写为 i . i . d . i.i.d. i.i.d.
性质:
- 如果 X , Y X, Y X,Y是 i . i . d . i.i.d. i.i.d.,则 P ( X > Y ) = P ( Y > X ) P(X>Y) = P(Y>X) P(X>Y)=P(Y>X),如果 X , Y X,Y X,Y是连续的,则 P ( X > Y ) = 0.5 P(X>Y) = 0.5 P(X>Y)=0.5
- 如果 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn是连续且 i . i . d . i.i.d. i.i.d.,则 P ( X 1 > X 2 > . . . > X n ) = 1 n ! P(X_1 > X_2 > ... > X_n) = \frac{1}{n!} P(X1>X2>...>Xn)=n!1
- 如果 X 1 , . . . , X n X_1, ..., X_n X1,...,Xn 是独立同分布(i.i.d.)的随机变量,且每一个 X i X_i Xi都服从伯努利分布(Bernoulli distribution),即 X i ∼ Ber ( p ) X_i \sim \text{Ber}(p) Xi∼Ber(p)。则:
∑ i = 1 n X i ∼ B ( n , p ) \sum_{i=1}^n X_i \sim B(n, p) i=1∑nXi∼B(n,p)
联合分布期望 E [ g ( X , Y ) ] \mathbb{E}[g(X, Y)] E[g(X,Y)]
如果你有两个随机变量 X , Y X, Y X,Y,它们合起来有一个联合分布pmf: p ( x , y ) p(x, y) p(x,y),或联合概率密度函数 pdf: f ( x , y ) f(x, y) f(x,y),则对任意一个函数 g ( x , y ) g(x, y) g(x,y),它的期望可以计算为:
E [ g ( X , Y ) ] = ∑ x , y g ( x , y ) p ( x , y ) E [ g ( X , Y ) ] = ∬ g ( x , y ) f ( x , y ) d x d y \mathbb{E}[g(X, Y)] = \underset{x, y}{\sum}g(x, y)p(x,y) \\ \mathbb{E}[g(X, Y)] = \iint g(x, y)f(x, y)dxdy E[g(X,Y)]=x,y∑g(x,y)p(x,y)E[g(X,Y)]=∬g(x,y)f(x,y)dxdy
一般形式可以写成:
E [ g ( X , Y ) ] = ∬ g ( x , y ) d F ( x , y ) \mathbb{E}[g(X, Y)] = \iint g(x, y)dF(x, y) E[g(X,Y)]=∬g(x,y)dF(x,y)
将这个结果应用到 g ( X , Y ) = X + Y g(X, Y) = X + Y g(X,Y)=X+Y中,有
E ( X + Y ) = E X + E Y \mathbb{E}(X+Y) = \mathbb{E}X + \mathbb{E}Y E(X+Y)=EX+EY
这个结果与是否独立无关!
而如果 X ⊥ ⊥ Y X \perp \!\!\!\perp Y X⊥⊥Y,有以下结果:
E ( h ( X ) ⋅ m ( Y ) ) = E ( h ( X ) ) ⋅ E ( m ( Y ) ) \mathbb{E}(h(X) \cdot m(Y)) = \mathbb{E}(h(X)) \cdot \mathbb{E}(m(Y)) E(h(X)⋅m(Y))=E(h(X))⋅E(m(Y))
方差与协方差
定义
我们已经推导了:
Var ( X + Y ) = E ( X 2 + 2 X Y + Y 2 ) − ( ( E X ) 2 + ( E Y ) 2 + 2 E X E Y ) = Var ( X ) + Var ( Y ) + 2 ( E ( X Y ) − E X E Y ) \begin{align*} \text{Var}(X+Y) &= \mathbb{E}(X^2 + 2XY + Y^2) - ((\mathbb{E}X)^2 + (\mathbb{E}Y)^2+2\mathbb{E}X \mathbb{E}Y) \\ &= \text{Var}(X) + \text{Var}(Y) + 2(\mathbb{E}(XY) - \mathbb{E}X\mathbb{E}Y) \end{align*} Var(X+Y)=E(X2+2XY+Y2)−((EX)2+(EY)2+2EXEY)=Var(X)+Var(Y)+2(E(XY)−EXEY)
E ( X Y ) − E X E Y = E [ ( X − E X ) ( Y − E Y ) ] \mathbb{E}(XY) - \mathbb{E}X \mathbb{E}Y = \mathbb{E}[(X-\mathbb{E}X)(Y-\mathbb{E}Y)] E(XY)−EXEY=E[(X−EX)(Y−EY)]
我们把它定义为 X , Y X, Y X,Y之间的协方差:
Cov ( X , Y ) : = E [ ( X − E X ) ( Y − E Y ) ] \text{Cov}(X, Y) := \mathbb{E}[(X-\mathbb{E}X)(Y-\mathbb{E}Y)] Cov(X,Y):=E[(X−EX)(Y−EY)]
如果 Cov ( X , Y ) = 0 \text{Cov}(X, Y) = 0 Cov(X,Y)=0,则称 X , Y X, Y X,Y是不相关的(uncorrelated)。 X , Y X,Y X,Y独立能推出 X , Y X, Y X,Y不相关。
性质
- 交换性(Symmetry): Cov ( X , Y ) = Cov ( Y , X ) \text{Cov}(X, Y) = \text{Cov}(Y, X) Cov(X,Y)=Cov(Y,X)
- 自协方差: Cov ( X , X ) = Var ( X ) \text{Cov}(X, X) = \text{Var}(X) Cov(X,X)=Var(X)
- 线性性(Linearity): Cov ( X , a Y + b Z ) = a Cov ( X , Y ) + b Cov ( X , Z ) \text{Cov}(X, aY+bZ) = a\text{Cov}(X, Y) + b\text{Cov}(X, Z) Cov(X,aY+bZ)=aCov(X,Y)+bCov(X,Z)
- 受限性(Boundedness): ∣ Cov ( X , Y ) ∣ ≤ Var ( X ) Var ( Y ) |\text{Cov}(X, Y)| \le \sqrt{\text{Var}(X)\text{Var}(Y)} ∣Cov(X,Y)∣≤Var(X)Var(Y)
通常定义相关系数(Correlation)为:
ρ = Cov ( X , Y ) Var ( X ) Var ( Y ) \rho = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)}\sqrt{\text{Var}(Y)}} ρ=Var(X)Var(Y)Cov(X,Y)
由定义有:
Var ( X + Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X , Y ) \text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y) Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)
进一步的有:
Var ( ∑ c i X i ) = ∑ c i 2 Var ( X i ) + 2 ∑ i < j c i c j Cov ( X i , X j ) \text{Var}(\sum c_iX_i) = \sum c_i^2\text{Var}(X_i) + 2\sum_{i<j}c_ic_j\text{Cov}(X_i, X_j) Var(∑ciXi)=∑ci2Var(Xi)+2i<j∑cicjCov(Xi,Xj)
协方差矩阵
对两个随机向量 X ∈ R n , Y ∈ R m X \in \mathbb{R}^n, Y \in \mathbb{R}^m X∈Rn,Y∈Rm,协方差定义为:
C o v ( X , Y ) : = E [ ( X − E X ) ( Y − E Y ) ⊤ ] ∈ R n × m Cov(X, Y):= \mathbb{E}[(X - \mathbb{E}X)(Y-\mathbb{E}Y)^\top] \in \mathbb{R}^{n \times m} Cov(X,Y):=E[(X−EX)(Y−EY)⊤]∈Rn×m
于是有$ C o v ( Y , X ) = [ C o v ( X , Y ) ] ⊤ Cov(Y, X) = [Cov(X, Y)]^\top Cov(Y,X)=[Cov(X,Y)]⊤
对于一个随机向量 X = ( X 1 , . . . , X n ) X = (X_1, ..., X_n) X=(X1,...,Xn),它的协方差矩阵定义记为 V a r ( X ) Var(X) Var(X)或 C o v ( X ) Cov(X) Cov(X),定义为:
C o v ( X ) = E [ ( X − E X ) ( X − E X ) ⊤ ] = [ C o v ( X i , X j ) ] ∈ R n × n Cov(X) = \mathbb{E}[(X - \mathbb{E}X)(X-\mathbb{E}X)^\top] = [Cov(X_i, X_j)] \in \mathbb{R}^{n \times n} Cov(X)=E[(X−EX)(X−EX)⊤]=[Cov(Xi,Xj)]∈Rn×n
C o v ( X ) Cov(X) Cov(X)总是半正定的(psd)且交换的。
线性变换:
Cov ( A X , Y ) = A Cov ( X , Y ) Cov ( A X ) = A ⋅ Cov ( X ) ⋅ A ⊤ \text{Cov}(AX, Y) = A\text{Cov}(X, Y) \\ \text{Cov}(AX) = A\cdot \text{Cov}(X) \cdot A^\top Cov(AX,Y)=ACov(X,Y)Cov(AX)=A⋅Cov(X)⋅A⊤
多项分布(Multinomial distribution)
设 k 1 + . . . + k m = n , p 1 + . . . + p m = 1 k_1 + ... + k_m = n, p_1 + ... + p_m = 1 k1+...+km=n,p1+...+pm=1
如果随机变量 X = ( X 1 , . . . , X m ) X = (X_1, ..., X_m) X=(X1,...,Xm)满足:
P ( X 1 = k 1 , . . . , X m = k m ) = n ! k 1 ! . . . k m ! p 1 k 1 . . . p n k n P(X_1=k_1, ..., X_m=k_m) = \frac{n!}{k_1!...k_m!}p_1^{k_1}...p_n^{k_n} P(X1=k1,...,Xm=km)=k1!...km!n!p1k1...pnkn
则记作 X ∼ Mult ( n ; p 1 , . . . , p m ) X \sim \text{Mult}(n; p_1, ..., p_m) X∼Mult(n;p1,...,pm)
随机向量 X = ( X 1 , . . . , X m ) X=(X_1, ..., X_m) X=(X1,...,Xm)表示在 n n n 次试验中,每个类别出现的次数。其中每个试验中第 i i i 个类别的发生概率为 p i p_i pi
多项正态分布(Multivariate normal distribution)
一个 n n n维随机向量 X X X是多项正态的,均值为 μ \mu μ,协方差为 ∑ ∈ S + + n \sum \in \mathbb{S}^n_{++} ∑∈S++n,当它有密度:
f ( x ) = 1 ( 2 π ) n / 2 ∣ ∑ ∣ 1 / 2 exp ( − 1 2 ( x − μ ) ⊤ ∑ − 1 ( x − μ ) ) f(x) = \frac{1}{(2\pi)^{n/2}|\sum|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu)^\top \sum^{-1}(x-\mu)\right) f(x)=(2π)n/2∣∑∣1/21exp(−21(x−μ)⊤∑−1(x−μ))
这里 S + + n \mathbb{S}^n_{++} S++n表示所有正定矩阵;我们记这样的 X X X为: X ∼ N ( μ , ∑ ) ) X\sim \mathcal{N}(\mu, \sum)) X∼N(μ,∑))
性质:
- X ∼ N ( μ , ∑ ) ) ⇒ A X ∼ N ( A μ , A ∑ A ⊤ ) ) , ∀ A ∈ R m × n X \sim \mathcal{N}(\mu, \sum)) \Rightarrow AX \sim \mathcal{N}(A\mu, A\sum A^\top)), \forall A \in \mathbb{R}^{m \times n} X∼N(μ,∑))⇒AX∼N(Aμ,A∑A⊤)),∀A∈Rm×n
对于特殊情况 A = α ⊤ A = \alpha^\top A=α⊤, < α , X > ∼ N ( α ⊤ μ , α ⊤ ∑ α ) \left<\alpha, X\right> \sim \mathcal{N}(\alpha^\top \mu, \alpha^\top \sum \alpha) ⟨α,X⟩∼N(α⊤μ,α⊤∑α)。这说明任意 X i X_i Xi的线性组合都是正态分布。 - E X = μ , V a r ( X ) = ∑ \mathbb{E}X = \mu, Var(X) = \sum EX=μ,Var(X)=∑
条件分布
简单定义
- 如果 X , Y X, Y X,Y是离散型变量,则
p X ∣ Y ( x ∣ y ) = p ( x , y ) p Y ( y ) p_{X\mid Y}(x\mid y) = \frac{p(x, y)}{p_Y(y)} pX∣Y(x∣y)=pY(y)p(x,y) - 如果 X , Y X, Y X,Y是连续型变量,则 f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X\mid Y}(x\mid y)=\frac{f(x, y)}{f_Y(y)} fX∣Y(x∣y)=fY(y)f(x,y)
条件期望
- 离散情况 E [ X ∣ Y = y ] = ∑ x x ⋅ p X ∣ Y ( x ∣ y ) \mathbb{E}[X\mid Y=y] = \underset{x}{\sum}x \cdot p_{X\mid Y}(x\mid y) E[X∣Y=y]=x∑x⋅pX∣Y(x∣y)
- 连续情况 E [ X ∣ Y = y ] = ∫ x ⋅ f X ∣ Y ( x ∣ y ) d x \mathbb{E}[X\mid Y=y] = \int x \cdot f_{X\mid Y}(x\mid y)dx E[X∣Y=y]=∫x⋅fX∣Y(x∣y)dx
所以条件期望 E [ X ∣ Y = y ] \mathbb{E}[X\mid Y=y] E[X∣Y=y]是一个依赖于 Y Y Y的随机变量,我们将它记为 g ( Y ) = E [ X ∣ Y ] g(Y) = \mathbb{E}[X\mid Y] g(Y)=E[X∣Y]。
定义的缺陷
考虑连续的变量 X , Y X, Y X,Y,事件 A ∈ σ ( X , Y ) A \in \sigma(X, Y) A∈σ(X,Y), P ( A ) > 0 P(A) > 0 P(A)>0。
E [ X ∣ A ] \mathbb{E}[X\mid A] E[X∣A]可以被定义为在条件概率密度下 X X X的均值,即
f X ∣ A ( x ) = ∫ f X , Y ( x , y ) 1 A ( x , y ) d y P ( A ) f_{X\mid A}(x) = \frac{\int f_{X,Y}(x, y)1_A(x, y)dy}{P(A)} fX∣A(x)=P(A)∫fX,Y(x,y)1A(x,y)dy
所以有:
E [ X ∣ A ] = ∫ x f X ∣ A ( x ) d x = E [ X ⋅ 1 A ] P ( A ) P ( B ∣ A ) = E [ 1 B ∣ A ] = E [ 1 B 1 A ] P ( A ) = P ( A ∩ B ) P ( A ) \mathbb{E}[X\mid A]=\int xf_{X\mid A}(x)dx = \frac{\mathbb{E}[X\cdot 1_A]}{P(A)} \\ \ \\ P(B\mid A) = \mathbb{E}[1_B \mid A] = \frac{\mathbb{E}[1_B1_A]}{P(A)} = \frac{P(A\cap B)}{P(A)} E[X∣A]=∫xfX∣A(x)dx=P(A)E[X⋅1A] P(B∣A)=E[1B∣A]=P(A)E[1B1A]=P(A)P(A∩B)
如果令 A = { Y = y } A = \set{Y = y} A={Y=y},可以在事件 Y ∈ [ y , y + d y ] Y \in [y, y+dy] Y∈[y,y+dy]上取极限:
f X ∣ { Y = y } ( x ) : = lim d y → 0 ∫ y y + d y f X , Y ( x , z ) d z P ( Y ∈ ( y , y + d y ) ) = ? f X , Y ( x , y ) d y f Y ( y ) d y \begin{align*} f_{X\mid \set{Y=y}}(x):&=\underset{dy\to 0}{\lim}\frac{\int_y^{y+dy} f_{X,Y}(x, z)dz}{P(Y\in (y, y+dy))} \\ &\overset{?}{=} \frac{f_{X, Y}(x, y)dy}{f_Y(y)dy} \end{align*} fX∣{Y=y}(x):=dy→0limP(Y∈(y,y+dy))∫yy+dyfX,Y(x,z)dz=?fY(y)dyfX,Y(x,y)dy
这里会出现问题,体现了这种定义的缺陷【?没看懂】
更严谨的定义
严谨的定义不再是条件分布,而是条件期望 E [ X ∣ G ] \mathbb{E}[X\mid \mathcal{G}] E[X∣G],这里 G \mathcal{G} G不是事件,而是信息的集合(形式上是一个 σ \sigma σ代数)
关键思想:先基于 σ ( Y ) \sigma(Y) σ(Y)全局定义 E [ X ∣ Y ] \mathbb{E}[X\mid Y] E[X∣Y],然后在特定的 y y y处取值,而不是反过来(先定义点值再推广)
定义: E [ X ∣ σ ( Y ) ] \mathbb{E}[X | \sigma(Y)] E[X∣σ(Y)] 是唯一一个 σ ( Y ) \sigma(Y) σ(Y)-可测的随机变量(即属于 σ ( Y ) \sigma(Y) σ(Y) 生成的σ-代数),记作 h ( Y ) h(Y) h(Y),使得对于所有 A ∈ σ ( Y ) A \in \sigma(Y) A∈σ(Y):
∫ A E [ X ∣ σ ( Y ) ] d P = ∫ A X d P \int_A \mathbb{E}[X | \sigma(Y)] dP = \int_A X dP ∫AE[X∣σ(Y)]dP=∫AXdP
这里的 h ( Y ) h(Y) h(Y) 就是 E [ X ∣ σ ( Y ) ] \mathbb{E}[X | \sigma(Y)] E[X∣σ(Y)]。【 σ ( Y ) \sigma(Y) σ(Y) 的完备性保证了唯一性】
这样对于特定的 y y y, E [ X ∣ Y = y ] \mathbb{E}[X\mid Y=y] E[X∣Y=y]就是在 Y = y Y=y Y=y处对 h ( Y ) h(Y) h(Y)测度。
方差的定义
V a r ( X ∣ Y ) : = E [ ( X − E [ X ∣ Y ] ) 2 ∣ Y ] Var(X\mid Y) := \mathbb{E}[(X-\mathbb{E}[X\mid Y])^2\mid Y] Var(X∣Y):=E[(X−E[X∣Y])2∣Y]
或
V a r ( X ∣ Y = y ) : = E [ ( X − E [ X ∣ Y = y ] ) 2 ∣ Y = y ] Var(X\mid Y=y):=\mathbb{E}[(X-\mathbb{E}[X\mid Y=y])^2\mid Y=y] Var(X∣Y=y):=E[(X−E[X∣Y=y])2∣Y=y]
性质
- 线性性: E [ a X + b Z ∣ Y ] = a E [ X ∣ Y ] + b E [ Z ∣ Y ] \mathbb{E}[aX+bZ\mid Y] = a\mathbb{E}[X\mid Y] + b\mathbb{E}[Z\mid Y] E[aX+bZ∣Y]=aE[X∣Y]+bE[Z∣Y]
- 如果 X ≥ 0 X \ge 0 X≥0,则 E [ X ∣ Y ] ≥ 0 \mathbb{E}[X\mid Y] \ge 0 E[X∣Y]≥0
- 琴生(Jensen): g ( E [ X ∣ Y ] ) ≤ E [ g ( X ) ∣ Y ] g(\mathbb{E}[X\mid Y]) \le \mathbb{E}[g(X)\mid Y] g(E[X∣Y])≤E[g(X)∣Y],如果 g g g是凸的。
- 如果 X ⊥ ⊥ Y X \perp \!\!\!\perp Y X⊥⊥Y,则 E [ X ∣ Y ] = E [ X ] \mathbb{E}[X\mid Y] = \mathbb{E}[X] E[X∣Y]=E[X]
- 如果 X X X是 σ ( Y ) \sigma(Y) σ(Y)可测的,则 E [ X ∣ Y ] = X \mathbb{E}[X\mid Y] = X E[X∣Y]=X
- Tower property: E [ E [ X ∣ Y , Z ] ∣ Y ] = E [ X ∣ Y ] \mathbb{E}[\mathbb{E}[X\mid Y, Z] \mid Y] = \mathbb{E}[X\mid Y] E[E[X∣Y,Z]∣Y]=E[X∣Y]
- 全期望定律(Law of total expectation): E [ E [ X ∣ Y ] ] = E [ X ] \mathbb{E}[\mathbb{E}[X\mid Y]] = \mathbb{E}[X] E[E[X∣Y]]=E[X]
- 全方差定律(Law of total variance) V a r ( X ) = E [ V a r ( X ∣ Y ) ] + V a r ( E [ X ∣ Y ] ) Var(X) = \mathbb{E}[Var(X\mid Y)] + Var(\mathbb{E}[X\mid Y]) Var(X)=E[Var(X∣Y)]+Var(E[X∣Y])
混合分布 (Mixture distributions)
假设存在一个潜在类别变量 I ∼ m ( 1 , [ p i ] 1 ≤ i ≤ m ) I \sim m(1, [p_i]_{1\le i\le m}) I∼m(1,[pi]1≤i≤m),即 I I I是一个取值为 1 1 1到 m m m的离散随机变量,概率为 p i p_i pi。
给定 I = i I=i I=i时,观测变量 X X X的分布为 F i F_i Fi,即 [ X ∣ I = i ] ∼ F i [X\mid I = i] \sim F_i [X∣I=i]∼Fi
那么总体上,称 X X X的分布是一个混合分布:
F X ( x ) = p 1 F 1 ( x ) + . . . + p m F m ( x ) F_X(x) = p_1F_1(x) + ... + p_mF_m(x) FX(x)=p1F1(x)+...+pmFm(x)
如果每个 F i F_i Fi有密度函数 f i ( x ) f_i(x) fi(x),则联合密度为:
f X ( x ) = p 1 f 1 ( x ) + . . . + p m f m ( x ) f_X(x) = p_1f_1(x) + ... + p_mf_m(x) fX(x)=p1f1(x)+...+pmfm(x)
特别的,当每个成分都是正态分布时, X X X称为高斯混合模型(GMM)
f X ( x ) = p 1 N ( μ 1 , Σ 1 ) + . . . + p m N ( μ m , Σ m ) f_X(x) = p_1\mathcal{N}(\mu_1, \Sigma_1) + ... + p_m\mathcal{N}(\mu_m, \Sigma_m) fX(x)=p1N(μ1,Σ1)+...+pmN(μm,Σm)
还有一种特殊的混合模型,用于处理数据中过多的零值:
P ( X = x ) = π δ 0 ( x ) + ( 1 − π ) Poi ( x ; λ ) P(X = x) = \pi \delta_0(x) + (1-\pi)\text{Poi}(x;\lambda) P(X=x)=πδ0(x)+(1−π)Poi(x;λ)
其中:
- π \pi π表示额外的 0 0 0发生的概率
- ( 1 − π ) (1-\pi) (1−π)是来自泊松分布的概率
- δ 0 \delta_0 δ0是 x = 0 x=0 x=0处的点质量。
多元正态分布的条件分布
如果 x ∼ N ( 0 , Σ ) x \sim \mathcal{N}(0, \Sigma) x∼N(0,Σ),其中 Σ = [ A B C D ] \Sigma = \begin{bmatrix} A & B\\ C & D \end{bmatrix} Σ=[ACBD],我们可以证明:
x A ∣ x D ∼ N ( 0 , A − B D − 1 C ) x_A \mid x_D \sim \mathcal{N}(0, A-BD^{-1}C) xA∣xD∼N(0,A−BD−1C)
如果设 Ω = Σ − 1 \Omega = \Sigma^{-1} Ω=Σ−1,则也可以写成:
x A ∣ x D ∼ N ( 0 , [ Ω A ] − 1 ) x_A\mid x_D \sim \mathcal{N}(0, [\Omega_A]^{-1}) xA∣xD∼N(0,[ΩA]−1)
精度矩阵 (precision matrix)
多元正态分布的概率密度函数可以自然地用精度矩阵(也称浓度矩阵) Ω = Σ − 1 \Omega = \Sigma^{-1} Ω=Σ−1来参数化。
f ( x ) ∝ exp ( − 1 2 ( x − μ ) ⊤ Ω ( x − μ ) ) f(x) \propto \exp\left(-\frac{1}{2}(x-\mu)^\top\Omega(x-\mu)\right) f(x)∝exp(−21(x−μ)⊤Ω(x−μ))
- 精度矩阵 Ω \Omega Ω编码的是变量之间的条件依赖关系(conditional dependencies)
- 协方差矩阵 Σ \Sigma Σ编码的是边际依赖关系(marginal dependencies)
- 换句话说:协方差反映的是变量间的直接相关性;而精度矩阵反映的是在给定其他所有变量的情况下,两个变量是否还相互依赖。
如果精度矩阵中某个元素 Ω i j = 0 \Omega_{ij}=0 Ωij=0,则表示变量 X i X_i Xi和 X j X_j Xj在给定其他所有变量的条件下是独立的(conditionally independent):
f ( x 1 , x 2 ∣ x ⊥ ) = f ( x 1 ∣ x ⊥ ) ⋅ f ( x 2 ∣ x ⊥ ) f(x_1, x_2 \mid x_\perp) = f(x_1 \mid x_\perp) \cdot f(x_2 \mid x_\perp) f(x1,x2∣x⊥)=f(x1∣x⊥)⋅f(x2∣x⊥)
其中 x ⊥ x_\perp x⊥表示除 x 1 x_1 x1和 x 2 x_2 x2外的所有其他变量。
