【深度学习】线性因子模型:数据降维与结构解析的数学透镜
作者选择了由 Ian Goodfellow、Yoshua Bengio 和 Aaron Courville 三位大佬撰写的《Deep Learning》(人工智能领域的经典教程,深度学习领域研究生必读教材),开始深度学习领域学习,深入全面的理解深度学习的理论知识。
之前的文章参考下面的链接:
【学习笔记】深度学习:典型应用
【学习笔记】 强化学习:实用方法论
【学习笔记】序列建模:递归神经网络(RNN)
【学习笔记】理解深度学习和机器学习的数学基础:数值计算
【学习笔记】理解深度学习的基础:机器学习
【学习笔记】深度学习网络-深度前馈网络(MLP)
【学习笔记】深度学习网络-正则化方法
【学习笔记】深度学习网络-深度模型中的优化
【学习笔记】卷积网络简介及原理探析
引言
在复杂的高维数据中寻找潜在的结构,是机器学习的核心挑战之一。线性因子模型提供了一套强大的数学工具,通过假设观测数据由少数“隐变量”(因子)经过线性变换生成,帮助我们抽丝剥茧、洞悉本质。以下是几种关键模型:
1. 概率PCA和因子分析:隐变量的基石
两者都是线性因子模型的基石,核心公式为:x = Wz + μ + ε。其中观测数据 x
源于隐变量 z
经过权重矩阵 W
的线性变换,加上均值 μ
和噪声 ε
。
- 因子分析 (FA): 历史更悠久,常用于社会科学和金融建模。它假设隐变量
z
服从标准高斯分布,关键特性是允许数据不同维度拥有独立的噪声方差ε
(即噪声协方差矩阵是对角阵)。这使其能灵活处理不同特征(变量)具有不同信噪比的情况,例如问卷调查中不同问题的可靠性差异。 - 概率主成分分析 (PPCA): 是PCA的概率版本。它也假设
z
服从标准高斯分布,但有一个关键约束:所有数据维度的噪声方差必须相同(即噪声协方差矩阵是各向同性的 σ²I)。在这种特殊设定下,模型的最大似然估计解W
的列向量张成的空间,恰好就是标准PCA找到的主子空间。PPCA将PCA纳入了概率框架,便于进行缺失值处理或贝叶斯扩展。
2. 独立成分分析:寻找源头活水
独立成分分析 (ICA) 的目标截然不同:它致力于从混合信号中分离出原始的、统计独立的源信号。
- 核心思想: 假设观测信号
x
是若干个未知的、相互独立的非高斯源信号s
(即隐变量)的线性混合(x = As
,A
是混合矩阵)。ICA的目标是找到一个逆矩阵W ≈ A⁻¹
,使得z = Wx
尽可能逼近独立的源信号s
。 - 关键差异: 不同于PCA/FA追求变量间不相关(二阶统计量),ICA追求变量间相互独立(涉及高阶统计量,如峭度)。它强制要求估计出的因子
z
分量尽可能独立且非高斯。 - 经典应用: “鸡尾酒会问题”——从多个麦克风录制的混合声音中分离出不同说话者的独立语音信号;脑电图(EEG)中分离不同脑电源或伪迹(如眼动)。
3. 满特性分析:自动化的维度选择
满特性分析 (Probabilistic PCA with Full Covariance - 常简称为PPCA的贝叶斯视角或与FA的某种联系) 并非一个广泛使用的独立术语,有时指代放宽了PPCA各向同性噪声假设、允许噪声协方差为任意对角阵的模型(此时更接近FA)。但在更重要的上下文中,它指对PPCA进行贝叶斯处理。
- 贝叶斯PPCA: 在标准的PPCA模型上,对权重矩阵
W
引入先验分布(如高斯分布)。 - 核心优势:自动相关性确定 (ARD): 通过贝叶斯推断,模型可以自动学习隐空间的有效维度。那些对解释数据贡献不大的隐因子维度,其对应的权重列的先验方差会被压缩到接近零,从而实现维度的“软选择”。这避免了传统PCA中需要人为选择主成分数量的难题,尤其适用于维度意义不明确的数据(如基因表达数据)。
4. 稀疏编码:简约的力量
稀疏编码 (Sparse Coding) 是一种生成式模型,其核心思想是:任何观测数据 x
都可以由一组基向量(通常是过完备的字典 D
)的稀疏线性组合来近似表示 (x ≈ Dz
)。
- 核心特性:稀疏性: 它强制要求隐编码
z
是稀疏的——即对于任何一个数据点x
,只有字典D
中极少数基向量被显著激活(z
的大部分元素为零或接近零)。这种约束模拟了哺乳动物初级视觉皮层中神经元响应的稀疏特性。 - 学习方式: 通常分两步交替进行:1) 推断:固定字典
D
,为当前数据x
寻找最优的稀疏编码z
(常使用L1正则化/Lasso优化实现稀疏性);2) 学习:固定编码z
,更新字典D
以最小化重建误差 (||x - Dz||²
)。 - 结果: 学习到的字典基向量通常具有局部性、方向性和带通性,类似于人脑V1区的简单细胞感受野(如各种朝向的边缘检测器),是学习数据底层特征的有效方式。
5. PCA的流形解释:摊平高维卷纸
主成分分析 (PCA) 除了是最经典的降维技术,还有一个深刻的几何视角——流形解释。
- 核心概念: 想象高维空间中的数据点并非均匀散布,而是近似分布在一个低维的、光滑弯曲的曲面(称为流形)附近,就像一张被揉皱后放入三维空间的二维纸张(瑞士卷数据集是经典例子)。
- PCA的作用: PCA的目标是找到这个隐含低维流形的一个最佳线性近似。它通过识别数据中方差最大的正交方向(主成分),构建了一个穿过数据“质心”的线性超平面(主子空间)。将数据点投影到这个超平面上,就得到了低维表示(主成分得分)。
- 意义与局限: 这个解释清晰地展示了PCA如何通过线性投影实现降维。然而,它同时揭示了PCA的核心局限:它只能捕捉数据的线性结构。如果数据实际所在的流形是高度非线性弯曲的(如瑞士卷),PCA的线性投影会严重扭曲数据的局部结构(将远点拉近,近点推远)。这直接催生了非线性降维方法(如t-SNE, UMAP, 自编码器)的发展,它们旨在发现并“摊平”非线性的数据流形。
总结
线性因子模型家族,从经典的PCA、因子分析、ICA,到更现代的稀疏编码和贝叶斯扩展(如PPCA),为我们提供了一系列强大的数学透镜。它们通过线性变换的框架,或揭示数据背后的潜在驱动因素(隐变量),或分离混杂的独立源信号,或学习具有生物合理性的稀疏特征表示,或近似数据的低维流形结构。理解这些模型的原理、联系与差异,是掌握现代数据分析与特征学习技术的坚实基础。它们虽以“线性”为名,却在理解复杂世界的非线性数据中扮演着不可或缺的角色。