信息论(四):熵与概率分布的期望
随机变量 g(X) 的期望可以记为:
\mathbb{E}_p g(X) = \sum_{x \in \mathcal{X} }g(x) p(x)
“当 g(X) = log(1/p(X))时,X 的熵是 log(1/p(X)) 的期望值。”
H(X)=- \sum_{x \in \mathcal{X} } p(x) \log{p(x)}
通常,在概率论中,随机变量可以用分布来定义,但通常我们并不用它来衡量分布本身。大多数情况下,当我们计算期望值 \mathbb{E}[g(X)] 时,函数 g 描述的是 X 的值,高度、能量、成本、误差等等。期望值告诉我们随机变量所代表的现象。
但在熵中,“随机变量”是由分布本身构建的。我们定义一个新的“随机变量”:
g(X) = \log\frac{1}{p(X)}。
但这并非结果本身的属性,例如“高度”或“电压”,它是该结果概率的属性。
此时,随机变量由概率分布构成。熵是分布本身的函数的期望值,并非关于“外部世界”。它是利用生成结果的分布来对结果进行的一种度量。因此,期望值 H(X) = \mathbb{E}[\log\tfrac{1}{p(X)}] 捕捉的是分布本身的统计特征,而不是 X 的物理意义。
仿佛每个结果都在描述自己的意外程度,也就是它在整个概率分布中的位置。罕见事件说:我很意外,给我一个大数字。常见事件说:我很普通,给我一个小数字。然后熵说:现在,根据每个结果出现的频率,对这些意外程度进行加权平均。这有点自指,分布通过它定义的期望值来描述自身。
它暗示了熵的实际意义。熵是描述了编码一个典型结果所需的平均比特数,这就是为什么我们要取 1/p(x) 的对数:如果一个事件发生的概率很低,你需要更多的比特来描述它。如果一个事件很常见,你需要的比特数就更少。所以熵本质上是在说:如果我必须尽可能高效地编码来自这个分布的结果,平均需要多少比特?
这就是信息压缩、Kraft不等式以及后续所有内容的核心,也是概率论与计算交汇的时刻。
为什么这个期望值很特别?因为它是唯一一个具有以下三个特征的期望值:它是内在的,完全由 X 的分布定义;它反映了不确定性,对于分布范围较广的情况,不确定性更大;它具有独特的现实意义,最小预期编码长度。
大多数期望值取决于你的随机变量代表什么,而这个期望值只取决于结果的概率分布。
