当前位置: 首页 > news >正文

【动手学深度学习】2.6. 概率


目录

    • 2.6. 概率
      • 1)基本概率论
      • 2)处理多个随机变量
      • 3)期望和方差


2.6. 概率

1)基本概率论

一些概念:

  • 抽样(sampling):从概率分布中抽取样本的过程;

  • 分布(distribution):类似于对事件概率分配;

  • 多项分布(multionmial distribution):将概率分配给一些离散选择的分布。

  • 样本空间(sample space)或结果空间(outcome space):随机实验的所有可能结果构成的集合;

  • 结果(outcome):样本空间或结果空间中的元素;

  • 事件(event):一组给定样本空间的随机结果。

(1)概率论公理

概率定义:概率是事件集合到实数的映射函数,事件 A 在样本空间 S 中的概率记为 P(A)。

三大公理(科尔莫戈罗夫, 1933):

  • 非负性:对任意事件 A,恒有 P(A) >= 0;

  • 规范性:整个样本空间概率为 1,即 P(S) = 1

  • 可列可加性:对任意可数个互斥事件序列 A 1 , A 2 , … A_1, A_2, \ldots A1,A2,(满足 i ≠ j i \neq j i=j A i ∩ A j = ∅ A_i \cap A_j = \emptyset AiAj=): P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) P\left( \bigcup_{i=1}^{\infty} A_i \right) = \sum_{i=1}^{\infty} P(A_i) P(i=1Ai)=i=1P(Ai)

(2)随机变量

随机变量定义:随机变量 X 表示随机实验的可能结果(如掷骰子样本空间 S = {1,2,3,4,5,6}),事件(如看到数字5)表示为 {X=5},其概率记为 P(X=5)。

概率表示简化

  • P(X) 表示 X 的概率分布(所有取值的概率集合);

  • P(a) 是取值 a 的概率的简写形式;

  • 范围概率如 P(1 <= X <= 3) 表示 X 取 {1,2,3} 的概率。

离散与连续随机变量

  • 离散(discrete)随机变量:取值可枚举(如骰子点数),可直接计算单点概率(如 P(X=1) > 0);

  • 连续(continuous)随机变量:取值不可枚举(如身高),单点概率恒为0(如 P(身高 = 1.80) = 0) ,需用概率密度描述区间概率(如 P(1.79 <= 身高 <= 1.81) > 0)。

.

2)处理多个随机变量

当我们处理多个随机变量时,会有若干个变量是我们感兴趣的。我们可以使用联合分布、条件分布、Bayes定理、边缘化和独立性假设来分析多个随机变量。

(1)联合概率(joint probability):

  • 事件一起发生的概率;

  • 表示为 P(A=a, B=b) :是A=a和B=b同时发生的概率。

(2)条件概率(conditional probability):

  • 在已知一个事件发生的情况下,另一个事件发生的概率;

  • 表示为 0 ≤ P ( B = b ∣ A = a ) = P ( A = a , B = b ) P ( A = a ) ≤ 1 0 \leq P(B=b|A=a) = \frac{P(A=a, B=b)}{P(A=a)} \leq 1 0P(B=bA=a)=P(A=a)P(A=a,B=b)1:是A=a发生的情况下,B=b的概率。

(3)贝叶斯定理(Bayes’ theorem):

  • 由联合概率和条件概率可得,贝叶斯定理为 P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A \mid B) = \frac{P(B \mid A) P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

  • 其中,P(A,B) 是一个联合分布(joint distribution),P(A | B) 是一个条件分布(conditional distribution)。

(4)边际化(marginalization):

  • 边际化:即对进行事件概率求和;

  • 公式: P ( B ) = ∑ A P ( A , B ) P(B) = \sum_{A} P(A, B) P(B)=AP(A,B)

  • 边际化结果的概率或分布称为边际概率(marginal probability) 或边际分布(marginal distribution)

(5)独立性(independence)

  • 两个事件的发生无关,表示为 A ⊥ B A \perp B AB ;

  • 两个随机变量是独立的,则其联合分布是其各自分布的乘积,即,由 P ( A ∣ B ) = P ( A , B ) P ( B ) = P ( A ) 等价于   P ( A , B ) = P ( A ) P ( B ) P(A \mid B) = \frac{P(A, B)}{P(B)} = P(A) \ \ 等价于\ \ P(A, B) = P(A)P(B) P(AB)=P(B)P(A,B)=P(A)  等价于  P(A,B)=P(A)P(B) ;

  • 同样地,给定随机变量C,两个随机变量A和B是条件独立的(conditionally independent), 当且仅当 P(A, B | C) = P(A | C) P(B | C)。这个情况表示为 A ⊥ B ∣ C A \perp B\ |\ C AB  C

.

3)期望和方差

随机变量X的 期望(expectation)或 平均值(average):

  • E [ X ] = ∑ x x P ( X = x ) E[X] = \sum_{x} x P(X = x) E[X]=xxP(X=x)

当函数 f(x) 的输入是从分布 P 中抽取的随机变量时,f(x) 的期望值为:

  • E x ∼ P [ f ( x ) ] = ∑ x f ( x ) P ( x ) E_{x \sim P}[f(x)] = \sum_x f(x) P(x) ExP[f(x)]=xf(x)P(x)

有时,我们想衡量随机变量与其期望值的偏置。这可以通过 方差 来量化:

  • V a r [ X ] = E [ ( X − E [ X ] ) 2 ] = E [ X 2 ] − E [ X ] 2 \mathrm{Var}[X] = E\left[(X - E[X])^2\right] = E[X^2] - E[X]^2 Var[X]=E[(XE[X])2]=E[X2]E[X]2

方差的平方根被称为 标准差(standard deviation)。

随机变量函数的方差衡量的是:当从该随机变量分布中采样不同值时, 函数值偏离该函数的期望的程度:

  • V a r [ f ( x ) ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] \mathrm{Var}[f(x)] = E\left[\left(f(x) - E[f(x)]\right)^2\right] Var[f(x)]=E[(f(x)E[f(x)])2]

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

相关文章:

  • C++递归语句完全指南:从原理到实践
  • 智能仓储解决方案:如何为您的企业选择最佳系统 (提升效率 降低成本)
  • 麒麟系统安装Navicat(14试用,删除文件可接着用)
  • KuiperInfer跟学第二课——张量的构建与实现
  • 嵌入式学习之系统编程(十一)网络编程之协议头,测试命令及工具
  • python闭包与装饰器
  • 跟我学c++中级篇——理解类型推导和C++不同版本的支持
  • 内嵌式mqtt server
  • 成功案例丨基于OptiStruct的三轮车车架结构刚强度仿真计算与优化
  • leetcode1609. 奇偶树-meidum
  • win10/win11禁止系统更新
  • 力扣面试150题--克隆图
  • Python删除大量文件
  • Day46 Python打卡训练营
  • 阿里140 补环境日志
  • C++.OpenGL (3/64)着色器(Shader)深入
  • 【技术】跨设备链路聚合的技术——M-LAG
  • C++.OpenGL (10/64)基础光照(Basic Lighting)
  • Python 3.11.9 安装教程
  • 两阶段提交
  • 软件商店安装下载/app优化
  • 厦门网站建设公司电话/2020做seo还有出路吗
  • wordpress搭建购物网站/站长之家ip查询
  • 网站客服系统在线/石家庄网络营销网站推广
  • 外贸网站导航栏建设技巧/吸引客流的25个技巧
  • 网上做网站怎么赚钱吗/推广普通话作文