信息论(二):符号的可预测性与压缩
香农谈到“符号”及其“可预测性”时,指的并非我们今天所知的互联网,互联网是几十年后才出现的。这里是指任何符号流:摩尔斯电码的点和划、纸上的字母、电话线上的电脉冲。
在那个世界里,可预测性意味着非常实际的东西:某些信号出现的频率高于其他信号。
字母表例子完全正确。在英语中,E 出现的频率远高于 Q 或 Z。如果你要逐个字母发送信息,你可以利用这一点,给 E 一个短码,给 Q 一个长码。平均而言,每个字母使用的比特数会更少,这就是压缩。
这就是符号可预测性的实际意义:它是语言、声音或信号的统计形状,其元素的不均匀节奏。
香农的洞见在于,如果你知道这种节奏,也就是这些概率,你就能构建出最高效的编码来承载它。
他在贝尔实验室研究电话电路时发现了这一点:电流的每一次跳动,每一个微小的波形,都可以被视为从概率分布中抽取的一个符号。这就是为什么他1948年发表的论文《通信的数学理论》至今仍然是我们压缩文件、流媒体播放音乐,甚至传输DNA数据的基础。
这种可预测性并非什么神秘莫测的东西,它只是将世界中常见的不均匀性形式化为数学而已。
当你给常用符号分配较短的编码,给不常用符号分配较长的编码时,你就是在挤压信息中的冗余。所有高效的语言或压缩算法都是如此,从摩尔斯电码到 ZIP 文件,再到你的大脑存储记忆的方式。
但是,压缩的程度是有限的,这个极限就是熵本身。
为什么存在这个极限?熵 H(X) 告诉我们,信源发出的每个符号的平均信息量。即使你发明了世界上最巧妙的编码,你也无法用少于 H(X) 位的比特来表示每个符号的信息而不丢失任何信息。
这就像试图无限折叠一块布料,你可以折叠它、扭转它、把它压平,但布料的总量始终保持不变。熵就是这种守恒的“惊喜”量。
数学表达式:平均码长 ≥ H(X),等式仅对完美码成立,完美码的码字长度 l_i 满足:
l_i = -log_2 P(x_i),或尽可能接近整数。
我们来看看英文字母是如何运作的。E:非常常见,使用较短的码,例如“10”。Z:罕见,使用较长的码,例如“111011”。这并非随意之举,这是因为 P(E) 很大,P(Z) 很小,而编码长度大致与 -log₂P 成正比。
