当前位置：首页 > news >正文

机器学习 [白板推导]（六）[核方法、指数族分布]

news 2025/9/18 2:14:45

7. 核方法

7.1. 背景

对于严格线性可分问题，感知机、SVM等算法都可以提供很好的解决方案，但对于非线性分类问题，需要一个非线性转换来将其变为线性问题。

高维空间往往比低维空间更容易线性可分，因此可以通过一些非线性变换将已知维度计算出新的维度，便有可能将非线性问题变为线性问题。

然而在实际问题中，可以将非线性问题转化为线性问题的变换函数 $\phi (\vec{x})$ 可能是非常复杂的，而根据概率派思想，将一个问题最终看做一个优化问题，则往往需要计算内积，如 $\left (\phi(\vec{x}_i) - \phi(\bar{\vec{x}}) \right )^T\left (\phi(\vec{x}_j) - \phi(\bar{\vec{x}}) \right )$ ，这会给优化带来非常可怕的复杂度。

事实上，我们所关心的是最终的内积的值，而不需要 $\phi (\vec{x})$ 的结果，因此如果有一个函数可以一步得到内积，即 $K(\vec{x}_i, \vec{x}_j) \equiv \left (\phi(\vec{x}_i) - \phi(\bar{\vec{x}}) \right )^T\left (\phi(\vec{x}_j) - \phi(\bar{\vec{x}}) \right )$ ，无需计算 $\phi (\vec{x})$ 即可直接得到内积结果，就可以很大程度简化优化的难度，因此核方法诞生了， $K(\vec{x}_i, \vec{x}_j)$ 即为（正定）核函数。

7.2. 定义

核：若存在函数 $K$ 使得 $\times X\rightarrow \mathbb{R}$ ，其中 $X$ 为特征空间， $\mathbb{R}$ 为全体实数域，则称 $K$ 为核函数。

正定核：对于一个核函数 $K$ ，若存在非线性变换 $\phi (\vec{x})$ （ $\phi (\vec{x})$ 属于希尔伯特空间，希尔伯特空间指完备的、可能是无限维的、被赋予内积的线性空间），使得 $K(\vec{x}_i, \vec{x}_j) \equiv \phi(\vec{x}_i) ^T\phi(\vec{x}_j)$ ，换言之任意N个样本的Gram矩阵 $\begin{bmatrix} K(\vec{x}_1, \vec{x}_1) & K(\vec{x}_1, \vec{x}_2) & \cdots & K(\vec{x}_1, \vec{x}_N)\\ K(\vec{x}_2, \vec{x}_1) & K(\vec{x}_2, \vec{x}_2) & \cdots & K(\vec{x}_2, \vec{x}_N)\\ \vdots & \vdots & \ddots &\vdots \\ K(\vec{x}_N, \vec{x}_1) & K(\vec{x}_N, \vec{x}_2) & \cdots & K(\vec{x}_N, \vec{x}_N) \end{bmatrix}$ 是半正定的，则称 $K$ 为正定核函数。

8. 指数族分布

8.1. 背景

指数族分布的定义式： $p(\vec{x}\ |\ \vec{\eta})=h(\vec{x})\cdot \exp\left \{\vec{\eta}^T\cdot \phi(\vec{x})-A(\vec{\eta}) \right \}$ ，其中：

$\vec{\eta}$ 为参数向量。
$A(\vec{\eta})$ 为对数配分函数（log partition function），配分函数表示包含了所有状态信息的函数，常用于归一化等用途，例如将某函数 $\hat{p}(\vec{x}\ |\ \vec{\theta})$ 归一化为概率分布，可以设 $z=\int \hat{p}(\vec{x}\ | \ \vec{\theta})$ ，则 $p(\vec{x} \ | \ \vec{\theta})=\frac{1}{z}\hat{p}(\vec{x}\ |\ \vec{\theta})$ 可以使 $\int p(\vec{x} \ | \ \vec{\theta})=1$ ，即被归一化为概率分布。在指数族分布中， $p(\vec{x}\ |\ \vec{\eta})=h(\vec{x})\cdot \exp\left \{\vec{\eta}^T\cdot \phi(\vec{x}) \right \}\cdot /\exp\left \{A(\vec{\eta}) \right \}$ ，则 $\exp\left \{ A(\vec{\eta})\right \},A(\vec{\eta})=\log z$ 即为对数配方函数。
$\phi (\vec{x})$ 代表充分统计量，即对于一组数据 $\left \{ \vec{x}_i \right \}_{1\leq i\leq N}$ ， $\phi (\vec{x})$ 包含了其所有统计信息，例如 $\phi (\vec{x})=\left [ E(\vec{x}), D(\vec{x}) \right ]$ 等等。

指数族分布的特点（学完概率图模型和变分推断后补）

8.2. 高斯分布的指数族分布推导

对于一组符合一维高斯分布的数据，设参数为 $\vec{\theta}=[\mu , \sigma^2]$ ，其概率密度函数为：
$\begin{aligned} p(x|\theta)&=\frac{1}{\sqrt{2\pi}\cdot\sigma}\exp\left \{ -\frac{(x-\mu)^2}{2\sigma^2} \right \}\\ &=\exp\left \{ -\frac{1}{2}\log(2\pi\cdot\sigma^2) \right \}\cdot \exp\left \{ -\frac{1}{2\sigma^2}(x^2-2\mu \cdot x) - \frac{\mu^2}{2\sigma^2} \right \}\\ &=\exp\left \{ \left [\begin{matrix} \frac{\mu}{\sigma^2} & -\frac{1}{2\sigma^2} \end{matrix} \right ]\cdot\left [ \begin{matrix} x\\ x^2 \end{matrix} \right ] - \left (\frac{\mu^2}{2\sigma^2} +\frac{1}{2}\log(2\pi\cdot\sigma^2) \right )\right \}.\tag{8.1} \end{aligned}$

因此可得： $\vec{\eta}=\left [\begin{matrix} \frac{\mu}{\sigma^2} & -\frac{1}{2\sigma^2} \end{matrix} \right ]^T,\eta_1=\frac{\mu}{\sigma^2},\eta_2=-\frac{1}{2\sigma^2}$ ，同时 $\phi(x)=\left [ \begin{matrix} x & x^2 \end{matrix} \right ] ^T$ ， $A(\vec{\eta})=\frac{\mu^2}{2\sigma^2} +\frac{1}{2}\log(2\pi\cdot\sigma^2) =-\frac{\eta_1^2}{4\eta_2}+\frac{1}{2}\log(-\frac{\pi}{\eta_2})$ ，即得到了一维高斯分布的指数族分布形式。

8.3. 关于对数配分函数的一些结论

由于 $p(\vec{x}\ |\ \vec{\eta})=h(\vec{x})\cdot \exp\left \{\vec{\eta}^T\cdot \phi(\vec{x}) \right \}/\exp\left \{ A(\vec{\eta})\right \}$ ，可得 $\exp\left \{ A(\vec{\eta})\right \}\cdot p(\vec{x}\ |\ \vec{\eta})=h(\vec{x})\cdot \exp\left \{\vec{\eta}^T\cdot \phi(\vec{x}) \right \}$ .

再两边积分可得： $\int \exp\left \{ A(\vec{\eta})\right \}\cdot p(\vec{x}\ |\ \vec{\eta})d\vec{x}=\exp\left \{ A(\vec{\eta})\right \}=\int h(\vec{x})\cdot \exp\left \{\vec{\eta}^T\cdot \phi(\vec{x}) \right \}d\vec{x}$ .

两边对 $\vec{\eta}$ 求导为： $\exp\left \{ A(\vec{\eta})\right \}\cdot A'(\vec{\eta})=\int h(\vec{x})\cdot \exp\left \{\vec{\eta}^T\cdot \phi(\vec{x}) \right \}\cdot \phi(\vec{x}) d\vec{x}$ 。

因此 $A'(\vec{\eta})=\int \left [h(\vec{x})\cdot \exp\left \{\vec{\eta}^T\cdot \phi(\vec{x}) \right \}/\exp\left \{ A(\vec{\eta})\right \} \right ] \cdot \phi(\vec{x}) d\vec{x}=\int p(\vec{x}|\vec{\eta}) \cdot \phi(\vec{x}) d\vec{x}=E_{p(\vec{x} | \vec{\eta})}[\phi(\vec{x}) ]$ .

进一步也可推导得 $A''(\vec{\eta})=D_{p(\vec{x}\ |\ \vec{\eta})}[\phi(\vec{x}) ]$ ，推导过程略。

8.4. 最大熵角度解读指数族分布

概率的信息量： $-\log p$ .

熵的定义：信息量的期望，即 $E_{p}[-\log p]=\int -p(x)\cdot \log p(x)dx$ 或 $E_{p}[-\log p]=-\sum_xp(x)\log p(x)$ .

最大熵：令熵值最大的概率分布情况，通常分布越趋向于等可能/均匀分布，熵值越大，因此最大熵也是等可能的量化分析。

对于一组离散变量的数据，其分布未知，但可以用经验分布代替，即 $\hat{p}(x)=\frac{count(x)}{N}$ ，同时设一向量函数 $\vec{f}(x)=[\begin{matrix} f_1(x) & f_2(x) & \cdots & f_Q(x) \end{matrix}]$ ，则可以对其求期望 $E_{\hat{p}}[\vec{f}(x)]=\vec{\Delta }$ ，因此可以将最大熵问题设为一个优化问题，即 $\left\{\begin{matrix} \min \sum_xp(x)\log p(x)\\ \textbf{s.t.}\ \sum_xp(x)=1,\ \ E_p[\vec{f}(x)]=E_{\hat{p}}[\vec{f}(x)]=\vec{\Delta} \end{matrix}\right.$ .

使用拉格朗日乘数法求解 $\mathcal{L}(p,\lambda_0, \vec{\lambda})=\sum_xp(x)\log p(x)+\lambda_0[1-\sum_xp(x)]+\vec{\lambda}^T(\vec{\Delta}-E_p[\vec{f}(x)])$ ，，对 $p (x)$ 求导得 $\frac{\partial \mathcal{L} }{\partial p}=\sum_x(\log p+1)-\sum_x\lambda_0-\sum_x\vec{\lambda}^T\vec{f}(x)$ ，令其为0，则解得 $p(x)=\exp\{ \vec{\lambda}^T\vec{f}(x)+\lambda_0-1 \}$ ，因此当 $\vec{f}(x)=\phi(x)$ 时，可以令 $\vec{\eta}=\vec{\lambda}$ ， $h(x)\cdot \exp\{ -A(\vec{\eta}) \}=\exp\{ \lambda_0-1 \}$ ，此时 $p (x)$ 为指数族分布。