【动手学深度学习】2.6. 概率
目录
- 2.6. 概率
- 1)基本概率论
- 2)处理多个随机变量
- 3)期望和方差
2.6. 概率
1)基本概率论
一些概念:
-
抽样(sampling):从概率分布中抽取样本的过程;
-
分布(distribution):类似于对事件概率分配;
-
多项分布(multionmial distribution):将概率分配给一些离散选择的分布。
-
样本空间(sample space)或结果空间(outcome space):随机实验的所有可能结果构成的集合;
-
结果(outcome):样本空间或结果空间中的元素;
-
事件(event):一组给定样本空间的随机结果。
(1)概率论公理
概率定义:概率是事件集合到实数的映射函数,事件 A 在样本空间 S 中的概率记为 P(A)。
三大公理(科尔莫戈罗夫, 1933):
-
非负性:对任意事件 A,恒有 P(A) >= 0;
-
规范性:整个样本空间概率为 1,即 P(S) = 1
-
可列可加性:对任意可数个互斥事件序列 A 1 , A 2 , … A_1, A_2, \ldots A1,A2,…(满足 i ≠ j i \neq j i=j 时 A i ∩ A j = ∅ A_i \cap A_j = \emptyset Ai∩Aj=∅): P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) P\left( \bigcup_{i=1}^{\infty} A_i \right) = \sum_{i=1}^{\infty} P(A_i) P(⋃i=1∞Ai)=∑i=1∞P(Ai)
(2)随机变量
随机变量定义:随机变量 X 表示随机实验的可能结果(如掷骰子样本空间 S = {1,2,3,4,5,6}),事件(如看到数字5)表示为 {X=5},其概率记为 P(X=5)。
概率表示简化:
-
P(X) 表示 X 的概率分布(所有取值的概率集合);
-
P(a) 是取值 a 的概率的简写形式;
-
范围概率如 P(1 <= X <= 3) 表示 X 取 {1,2,3} 的概率。
离散与连续随机变量:
-
离散(discrete)随机变量:取值可枚举(如骰子点数),可直接计算单点概率(如 P(X=1) > 0);
-
连续(continuous)随机变量:取值不可枚举(如身高),单点概率恒为0(如 P(身高 = 1.80) = 0) ,需用概率密度描述区间概率(如 P(1.79 <= 身高 <= 1.81) > 0)。
.
2)处理多个随机变量
当我们处理多个随机变量时,会有若干个变量是我们感兴趣的。我们可以使用联合分布、条件分布、Bayes定理、边缘化和独立性假设来分析多个随机变量。
(1)联合概率(joint probability):
-
事件一起发生的概率;
-
表示为 P(A=a, B=b) :是A=a和B=b同时发生的概率。
(2)条件概率(conditional probability):
-
在已知一个事件发生的情况下,另一个事件发生的概率;
-
表示为 0 ≤ P ( B = b ∣ A = a ) = P ( A = a , B = b ) P ( A = a ) ≤ 1 0 \leq P(B=b|A=a) = \frac{P(A=a, B=b)}{P(A=a)} \leq 1 0≤P(B=b∣A=a)=P(A=a)P(A=a,B=b)≤1:是A=a发生的情况下,B=b的概率。
(3)贝叶斯定理(Bayes’ theorem):
-
由联合概率和条件概率可得,贝叶斯定理为 P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A \mid B) = \frac{P(B \mid A) P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A) ;
-
其中,P(A,B) 是一个联合分布(joint distribution),P(A | B) 是一个条件分布(conditional distribution)。
(4)边际化(marginalization):
-
边际化:即对进行事件概率求和;
-
公式: P ( B ) = ∑ A P ( A , B ) P(B) = \sum_{A} P(A, B) P(B)=∑AP(A,B);
-
边际化结果的概率或分布称为边际概率(marginal probability) 或边际分布(marginal distribution)
(5)独立性(independence)
-
两个事件的发生无关,表示为 A ⊥ B A \perp B A⊥B ;
-
两个随机变量是独立的,则其联合分布是其各自分布的乘积,即,由 P ( A ∣ B ) = P ( A , B ) P ( B ) = P ( A ) 等价于 P ( A , B ) = P ( A ) P ( B ) P(A \mid B) = \frac{P(A, B)}{P(B)} = P(A) \ \ 等价于\ \ P(A, B) = P(A)P(B) P(A∣B)=P(B)P(A,B)=P(A) 等价于 P(A,B)=P(A)P(B) ;
-
同样地,给定随机变量C,两个随机变量A和B是条件独立的(conditionally independent), 当且仅当 P(A, B | C) = P(A | C) P(B | C)。这个情况表示为 A ⊥ B ∣ C A \perp B\ |\ C A⊥B ∣ C 。
.
3)期望和方差
随机变量X的 期望(expectation)或 平均值(average):
- E [ X ] = ∑ x x P ( X = x ) E[X] = \sum_{x} x P(X = x) E[X]=∑xxP(X=x)
当函数 f(x) 的输入是从分布 P 中抽取的随机变量时,f(x) 的期望值为:
- E x ∼ P [ f ( x ) ] = ∑ x f ( x ) P ( x ) E_{x \sim P}[f(x)] = \sum_x f(x) P(x) Ex∼P[f(x)]=∑xf(x)P(x)
有时,我们想衡量随机变量与其期望值的偏置。这可以通过 方差 来量化:
- V a r [ X ] = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 \mathrm{Var}[X] = E\left[(X - E[X])^2\right] = E[X^2] - E[X]^2 Var[X]=E[(X−E[X])2]=E[X2]−E[X]2
方差的平方根被称为 标准差(standard deviation)。
随机变量函数的方差衡量的是:当从该随机变量分布中采样不同值时, 函数值偏离该函数的期望的程度:
- V a r [ f ( x ) ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] \mathrm{Var}[f(x)] = E\left[\left(f(x) - E[f(x)]\right)^2\right] Var[f(x)]=E[(f(x)−E[f(x)])2]
.
声明:资源可能存在第三方来源,若有侵权请联系删除!