当前位置：首页 > news >正文

【信号处理】（高斯分布）最大熵定理

news 2025/11/9 10:38:13

在所有具有相同方差（即相同平均功率）的概率分布中，高斯分布的熵是最大的。

这个定理的精确表述是：

在所有具有相同方差（即相同的二阶矩，对于零均值分布来说就是相同的平均功率）的概率分布中，高斯分布（正态分布） 具有最大的微分熵。

下面我将详细解释这个定理的含义、重要性以及为什么它成立。

约束条件：我们比较的分布必须满足一个硬性约束——方差固定。方差（ $σ2\sigma^2$ ）衡量的是数据的离散程度，在信号处理中，它代表信号的平均功率。
优化目标：我们要在这些分布中找到那个微分熵 最大的分布。熵是衡量随机变量不确定性的指标。熵越大，意味着随机性越强，包含的信息量越大，或者说其结构是最"不可预测"的。
结论：在方差被固定的前提下，高斯分布是"最随机"、“最不可预测”、"最没有结构"的分布。任何其他具有相同方差的分布，都会因为具有某种特定的结构（例如，偏向某些值、有界等）而导致其不确定性降低，即熵变小。

这个定理是信息论和许多工程领域的基石。

中心极限定理的"对偶"：中心极限定理告诉我们，大量独立随机变量的和趋近于高斯分布。最大熵定理则从另一个角度解释了这个现象：在给定的方差约束下，如果我们对随机变量的分布一无所知（即不做任何其他假设），那么最合理、最不偏不倚的假设就是它是高斯分布，因为这是最"中庸"且不确定性最大的选择。
通信与信号处理：在信道容量（香农公式）的推导中，一个关键步骤是证明在发射功率受限的条件下，使用高斯分布的输入信号可以实现信道容量的上限。这直接应用了最大熵原理。
统计建模与机器学习：当我们对一个自然现象只知道其均值和方差（或协方差）时，使用高斯模型作为先验分布通常是最稳健、最不引入额外偏见的选择。这被称为最大熵原理的应用。

我们可以通过变分法和拉格朗日乘数法来证明这个定理。

目标：在满足以下三个约束条件下，最大化微分熵 $-\int_{-\infty}^{\infty} f(x) \log f(x) dx$ ：

概率密度函数积分为1： $∫−∞∞f(x)dx=1\int_{-\infty}^{\infty} f(x) dx = 1$
均值为0（为简化问题，不失一般性）： $∫−∞∞xf(x)dx=0\int_{-\infty}^{\infty} x f(x) dx = 0$
方差固定为 $σ2\sigma^2$ ： $∫−∞∞x2f(x)dx=σ2\int_{-\infty}^{\infty} x^2 f(x) dx = \sigma^2$

证明思路：

建立拉格朗日函数 $L\mathcal{L}$ ，将熵函数和三个约束条件结合起来：

$L[f]=−∫flog⁡fdx+λ1(∫fdx−1)+λ2∫xfdx+λ3(∫x2fdx−σ2)\mathcal{L}[f] = - \int f \log f dx + \lambda_1 \left( \int f dx - 1 \right) + \lambda_2 \int x f dx + \lambda_3 \left( \int x^2 f dx - \sigma^2 \right)$

其中 $λ1,λ2,λ3\lambda_1, \lambda_2, \lambda_3$ 是拉格朗日乘子。
对函数 $f$ 求变分导数，并令其等于零（ $δLδf=0\frac{\delta \mathcal{L}}{\delta f} = 0$ ）。计算结果是：

$−log⁡f(x)−1+λ1+λ2x+λ3x2=0-\log f(x) - 1 + \lambda_1 + \lambda_2 x + \lambda_3 x^2 = 0$
解出 $f (x)$ ：

$\exp(\lambda_1 - 1 + \lambda_2 x + \lambda_3 x^2)$

通过整理常数，这个形式可以写成：

$\exp(\alpha x + \beta x^2)$

其中 $\alpha, \beta$ 是常数。
利用三个约束条件来确定这些常数：
- 为了保证 $f (x)$ 是可归一化的概率密度函数，必须有 $β<0\beta < 0$ ，我们令 $β=−12σ2\beta = -\frac{1}{2\sigma^2}$ 。
- 利用均值为0的约束，可以推出 $α=0\alpha = 0$ 。
- 最后利用方差为 $σ2\sigma^2$ 的约束来确定常数 $A$ 。
最终得到的形式正是高斯分布的概率密度函数：

$\frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{x^2}{2\sigma^2}\right)$