机器学习:贝叶斯派
贝叶斯派认为p(x∣θ)p(x|θ)p(x∣θ)中θθθ不是一个常量。这个θθθ满足一个预设的先验的分布 θ∼p(θ)θ\sim p(θ)θ∼p(θ)。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p(θ∣X)=p(X∣θ)⋅p(θ)p(x)=p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ
p(θ|X)= \frac{ p(X|θ) \cdot p(θ)}{p(x)} = \frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ}
p(θ∣X)=p(x)p(X∣θ)⋅p(θ)=θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
这里的解释:
参数θ\thetaθ 视为随机变量,他有自己的先验分布p(θ)p(\theta)p(θ)。当我们要计算观测数据 XXX 出现的 “绝对概率$ p(X)$ 时,需要考虑参数 θ\thetaθ 所有可能取值对 p(X)p(X)p(X) 的贡献 。根据全概率公式,对于连续型随机变量θ\thetaθ ,观测数据XXX的边缘概率(也叫证据)p(X)p(X)p(X) ,需要对在给定的θ\thetaθ 条件下XXX 发生的概率p(X∣θ)p(X|\theta)p(X∣θ) ,乘以θ\thetaθ 自身的先验概率密度p(θ)p(\theta)p(θ),然后对θ\thetaθ所有的可能取值范围进行积分即:
p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ
\frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ}
θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
为了求 θ\thetaθ的值,我们要最大化这个参数后验MAP:
θMAP=argmaxθ p(θ∣X)=argmaxθ p(X∣θ)⋅p(θ)
\theta_{MAP} = \underset{\theta}{\arg\max} \space p(\theta \mid X) = \underset{\theta}{\arg\max} \space p(X \mid \theta) \cdot p(\theta)
θMAP=θargmax p(θ∣X)=θargmax p(X∣θ)⋅p(θ)
其中第二个等号由于和θ\thetaθ 没有关系。求解这个θ\thetaθ值后计算
p(X∣θ)⋅p(θ)∫θp(X∣θ)⋅p(θ)dθ\frac{p(X|θ) \cdot p(θ)}{\int\limits_θp(X|θ) \cdot p(θ) dθ}
θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)
,就得到了参数的后验概率。其中p(X∣θp(X|\thetap(X∣θ 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测:
p(xnew∣X)=∫θ p(xnew∣θ)⋅p(θ∣X))dθ
p(x_{new}|X) = \int\limits_{\theta} \space p(x_{new} | \theta) \cdot p(\theta| X))d\theta
p(xnew∣X)=θ∫ p(xnew∣θ)⋅p(θ∣X))dθ
其中积分中的被乘数是模型,乘数是后验分布。