大模型前世今生(十一):信息论——信息准确传输的上限
事实上,信息论的美妙之处在于,它能将看似极其模糊的东西——“信息”——转化为数学上的精确信息。
香农的核心洞见是:信息其实就是“惊喜”。如果我告诉你一些你已经确定的事情,那么我给你的信息量为零。但如果我告诉你一些意料之外的事情,那就是高信息量。
他对此进行了量化:信息的衡量标准是它能解决多少不确定性。当你抛一枚公平的硬币时,得知结果只会给你 1 “比特”的信息,它解决了两个等概率可能性之间的不确定性。
这正是它美妙之处:香农证明了通信存在根本的限制。无论你的编码多么巧妙,在嘈杂的信道中,想要确保信息不会丢失,信息传输的最大速率都有一个上限。他给了我们方程式来精确计算这个极限。
让我们来看看香农的实际定义。
一个事件的信息量是:I = -log₂(p),其中 p 是该事件发生的概率。
所以,如果某件事发生的概率是 50%(p = 0.5),那么当它发生时,它包含 -log₂(0.5) = 1 比特的信息。如果某件事发生的概率只有 25%(p = 0.25),那么了解它发生过会给你 -log₂(0.25) = 2 比特的信息。令人惊讶的是,信息量更大!
这是他著名的系统熵公式:H = -Σ p(x) log₂ p(x),所有可能结果的总和。这衡量了系统的平均不确定性。
香农将这一原理应用于实际的物理问题:如何高效压缩数据,如何纠正传输中的错误,以及电话线的最大容量是多少。他证明了,只要速率不超过一定的限制,即使在嘈杂的信道中,信息传输也能几乎无差错。
这虽然是纯数学,但它适用于从电话通话到DNA,甚至是大模型的处理语言的方式,模型生成的每个标记都解决了概率分布中的不确定性。
白眼果蝇的例子太完美了!在众多红眼果蝇中,发现一个突变体意义重大,正是因为它发生的可能性微乎其微。它解决了关于眼睛颜色是否会变化、是否与性染色体相关的不确定性……
现在,关于传输与存储。香农的天才之处就在于此。他证明了从数学上讲,它们实际上是同一个问题!
存储只是时间上的传输,而不是空间上的传输。当你将数据写入硬盘时,你是在把它“传输”给未来的自己。硬盘是一个充满噪声的通道:比特可能会翻转,扇区可能会损坏。香农定理同样适用:在给定硬盘错误率的情况下,可靠存储信息的最大速率是存在的。
传输速率之所以重要,是因为存在噪声。如果你试图通过嘈杂的信道(无论是有线、无线电信号,还是写入不可靠的存储器)以过快的速度发送信息,错误累积的速度就会超过你纠正它们的速度。
香农计算出了确切的阈值:信道容量。
低于这个速率,你可以通过巧妙的纠错技术任意接近完美的传输。高于这个速率,无论你做什么,错误都是不可避免的。
当你在嘈杂的信道中传输速度过快时,错误累积的速度会超过任何纠错方案的处理速度。这就像试图从漏水的船里舀水,如果水涌入的速度超过了你舀水的速度,无论你的水桶有多好,你都不可避免地会沉下去。
但精彩之处在于:香农证明了存在一个精确的阈值。在信道容量以下,你可以设计出使错误率尽可能小的编码。不是零,而是可以任意接近零。你只需要更巧妙的纠错方案。
超过信道容量?不可能。再聪明也救不了你。无论如何,错误都会累积。
他仿佛发现了一条自然法则:可靠通信的基本速度极限,就像光速一样真实存在。
香农的信道容量公式在其最著名的情况,高斯噪声的噪声信道中,简洁优雅:
C = B log₂(1 + S/N)
其中:
- C 是信道容量,单位为比特/秒
- B 是信道带宽,单位为赫兹
- S/N 是信噪比(信号功率除以噪声功率)
这句话说得很精彩:你的最大可靠传输速率取决于两个因素:你的带宽是多少(你的信道有多“宽”),以及你的信号在多大程度上超越了噪声。
带宽加倍,容量也加倍。但信噪比是对数函数,你需要指数级地增加信号功率才能获得容量的线性提升。
对于任意通道,还有一个更通用的公式,但更抽象:C = max I(X;Y),其中你最大化输入 X 和输出 Y 在所有可能输入分布上的互信息。