当前位置：首页 > news >正文

机器学习－贝叶斯函数（理解版）

news 2025/8/1 11:50:12

明确一下符号含义

D 数据集

$\theta$ 参数集合（例如在线性回归中，w和b是参数，参数集合 $\theta$ 是{w,b}）

联合概率密度函数和似然函数，表达式一样，但是侧重点不同

联合概密度函数 $P(D |\theta)$ ：给定参数，观察到特定数据集的概率

似然函数 $L(\theta|D)$ ：给定数据集，哪个参数更加拟合这些数据集合

实际上，从数学表达式来看， $P(D|\theta) = L(\theta|D)$

贝叶斯公式中用的是似然函数，但是似然函数表达式无法求出，所以用联合概率分布函数求出联合概率分布函数的表达式，这个表达式也是似然函数的表达式

在贝叶斯公式中，带入的是原始的似然函数而不是对数似然函数

所以我们实际上要求的是联合概率密度函数，怎么求呢

这里引出一个概念：单个点的概率密度函数

在独立同分布的条件下，联合概率密度函数＝单个点的概率密度函数之积（理解：多个独立事件同时发生的概率等于他们各自发生的概率之积）

单个点的概率密度函数怎么求？什么时候算是满足独立同分布呢？

1.单个点的概率密度函数

先验概率 $P(\theta)$ 中的参数 $\theta$ 有分布，这个分布是我们假设的

先验概率是一个关于参数的分布，而不是一个单一的概率值。先验概率是我们对参数θ的不确定性建模。它表示：在看到任何数据之前，我们认为参数θ可能取什么值，取这些值的可能性有多大大。

如果参数集中有多个参数呢？

两种情况，参数之间有相关性，参数之间无相关性

参数之间相互独立：每个参数的先验概率之积

参数之间有关系：用多元分布建模，如多元正态分布

2.独立同分布

独立同分布是机器学习模型有效性的假设性前提：在满足独立同分布的前提下，学习到的机器学习模型才是有效的

独立：独立是针对样本来源而言的。如果样本集（训练集、测试集）中的任意两个样本之间，都是不相关的，则样本的获得或者生成满足独立性条件。

同分布：在表示样本的特征确定以后，训练样本集的分布是具体而确定的，称之为“基于训练样本集的分布”；样本全集（通常都是无法获取的，是个理论概念），如果能够获取的话，同样对应着一个具体而确定的分布，称之为“基于样本全集的分布（实际上无法获得）”；严格意义上的同分布，是指基于训练样本集的分布与基于样本全集的分布完全相同。

查看全文

http://www.dtcms.com/a/305408.html