当前位置：首页 > news >正文

【深度学习】深度学习中的结构化概率模型：理论、方法与应用

news 2025/8/24 10:01:08

作者选择了由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大佬撰写的《Deep Learning》(人工智能领域的经典教程，深度学习领域研究生必读教材),开始深度学习领域学习，深入全面的理解深度学习的理论知识。

之前的文章参考下面的链接：
【深度学习】表示学习：深度学习的数据解构与重构艺术
【深度学习】自编码器：数据压缩与特征学习的神经网络引擎
【深度学习】线性因子模型：数据降维与结构解析的数学透镜
【学习笔记】强化学习：实用方法论
【学习笔记】序列建模：递归神经网络（RNN）
【学习笔记】理解深度学习和机器学习的数学基础：数值计算
【学习笔记】理解深度学习的基础：机器学习
【学习笔记】深度学习网络-深度前馈网络（MLP）
【学习笔记】深度学习网络-正则化方法
【学习笔记】深度学习网络-深度模型中的优化
【学习笔记】卷积网络简介及原理探析

1. 引言

在现代人工智能与数据科学领域，概率建模成为推理、决策和数据理解的核心工具。尤为重要的是结构化概率模型，它们通过图形表示变量之间的依赖结构，为理解大规模、高维和复杂关系数据提供了重要解决方案。《深度学习》一书中“图形化模型”章节正是对此类模型的系统阐述，也为深度深度学习模型的设计和分析打下了坚实基础。

2. 图形化概率模型简介

结构化概率模型，又称图形化模型（graphical models），是用图结构（nodes为变量，edges为依赖）描述概率分布的一种表示方法。图形化模型可分为两类：

有向图模型（Directed Graphical Models），如贝叶斯网络
无向图模型（Undirected Graphical Models），如马尔可夫随机场、玻尔兹曼机

图形表示

有向图（贝叶斯网络）示例

考虑三个变量 (A, B, C)，它们两两有依赖关系，可以如下表示：
在这里插入图片描述
对应的联合分布分解：

$P (A, B, C) = P (A) P (B ∣ A) P (C ∣ A)$

无向图（马尔可夫随机场）示例

变量间的边没有方向：
在这里插入图片描述
联合分布分解：

$\frac{1}{Z} \psi_1(A,B) \psi_2(B,C)$
其中 $ψ\psi$ 为势（potential）函数， $Z$ 是规范化因子。

3. 构造与解释概率图模型

3.1 条件独立性

图的结构清晰呈现出随机变量的条件独立性。如上所示若 $\rightarrow B \rightarrow C$ 成链，则有

$P (C ∣ A, B) = P (C ∣ B)$

即在已知 (B) 的情况下，(C) 与 (A) 条件独立。

3.2 联合分布因式分解

有向模型依赖父节点：

$P(x1,...,xn)=∏i=1nP(xi∣pa(xi))P(x_1, ..., x_n) = \prod_{i=1}^n P(x_i|\mathrm{pa}(x_i))$

其中 $pa(xi)\mathrm{pa}(x_i)$ 表示 $x_i$ 的父节点。

无向模型依赖最大团（clique）：

$\frac{1}{Z} \prod_{C \in \text{cliques}} \psi_C(x_C)$

4. 深度学习中的结构化概率模型

深度学习方法与图形化概率模型的结合可归纳为以下几类：

4.1 深度生成模型

玻尔兹曼机及其深层变体

**玻尔兹曼机（BM）**是一种无向概率模型，能有效捕捉变量之间复杂而对称的依赖关系。

能量函数表示：

$\frac{1}{Z} \exp\left(-E(v,h)\right)$
其中 $v$ 为可见层， $h$ 为隐藏层。

受限玻尔兹曼机（RBM）：

$E(v,h) = -a^T v - b^T h - v^T W h$

RBM 可扩展至多层深度网络（DBN 或 DBM）。

变分自编码器（VAE）

VAE 结合了概率图模型与神经网络，结构如下：

隐变量 $z$
观测变量 $x$
联合分布：

$P (x, z) = P (z) P (x ∣ z)$

VAE 的推断使用一个近似后验 ( q(z|x) )，用神经网络参数化：

$L(θ,ϕ;x)=Eqϕ(z∣x)[log⁡pθ(x∣z)]−DKL(qϕ(z∣x)∥p(z))\mathcal{L}(\theta, \phi; x) = \mathbb{E}_{q_\phi(z|x)} [\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x) \Vert p(z))$