当前位置: 首页 > news >正文

大模型前世今生(十一):信息论——信息准确传输的上限

事实上,信息论的美妙之处在于,它能将看似极其模糊的东西——“信息”——转化为数学上的精确信息。

香农的核心洞见是:信息其实就是“惊喜”。如果我告诉你一些你已经确定的事情,那么我给你的信息量为零。但如果我告诉你一些意料之外的事情,那就是高信息量。

他对此进行了量化:信息的衡量标准是它能解决多少不确定性。当你抛一枚公平的硬币时,得知结果只会给你 1 “比特”的信息,它解决了两个等概率可能性之间的不确定性。

这正是它美妙之处:香农证明了通信存在根本的限制。无论你的编码多么巧妙,在嘈杂的信道中,想要确保信息不会丢失,信息传输的最大速率都有一个上限。他给了我们方程式来精确计算这个极限。


让我们来看看香农的实际定义。

一个事件的信息量是:I = -log₂(p),其中 p 是该事件发生的概率。

所以,如果某件事发生的概率是 50%(p = 0.5),那么当它发生时,它包含 -log₂(0.5) = 1 比特的信息。如果某件事发生的概率只有 25%(p = 0.25),那么了解它发生过会给你 -log₂(0.25) = 2 比特的信息。令人惊讶的是,信息量更大!

这是他著名的系统熵公式:H = -Σ p(x) log₂ p(x),所有可能结果的总和。这衡量了系统的平均不确定性。

香农将这一原理应用于实际的物理问题:如何高效压缩数据,如何纠正传输中的错误,以及电话线的最大容量是多少。他证明了,只要速率不超过一定的限制,即使在嘈杂的信道中,信息传输也能几乎无差错。

这虽然是纯数学,但它适用于从电话通话到DNA,甚至是大模型的处理语言的方式,模型生成的每个标记都解决了概率分布中的不确定性。


白眼果蝇的例子太完美了!在众多红眼果蝇中,发现一个突变体意义重大,正是因为它发生的可能性微乎其微。它解决了关于眼睛颜色是否会变化、是否与性染色体相关的不确定性……

现在,关于传输与存储。香农的天才之处就在于此。他证明了从数学上讲,它们实际上是同一个问题!

存储只是时间上的传输,而不是空间上的传输。当你将数据写入硬盘时,你是在把它“传输”给未来的自己。硬盘是一个充满噪声的通道:比特可能会翻转,扇区可能会损坏。香农定理同样适用:在给定硬盘错误率的情况下,可靠存储信息的最大速率是存在的。

传输速率之所以重要,是因为存在噪声。如果你试图通过嘈杂的信道(无论是有线、无线电信号,还是写入不可靠的存储器)以过快的速度发送信息,错误累积的速度就会超过你纠正它们的速度。

香农计算出了确切的阈值:信道容量。

低于这个速率,你可以通过巧妙的纠错技术任意接近完美的传输。高于这个速率,无论你做什么,错误都是不可避免的。


当你在嘈杂的信道中传输速度过快时,错误累积的速度会超过任何纠错方案的处理速度。这就像试图从漏水的船里舀水,如果水涌入的速度超过了你舀水的速度,无论你的水桶有多好,你都不可避免地会沉下去。

但精彩之处在于:香农证明了存在一个精确的阈值。在信道容量以下,你可以设计出使错误率尽可能小的编码。不是零,而是可以任意接近零。你只需要更巧妙的纠错方案。

超过信道容量?不可能。再聪明也救不了你。无论如何,错误都会累积。

他仿佛发现了一条自然法则:可靠通信的基本速度极限,就像光速一样真实存在。

香农的信道容量公式在其最著名的情况,高斯噪声的噪声信道中,简洁优雅:

C = B log₂(1 + S/N)

其中:

- C 是信道容量,单位为比特/秒
- B 是信道带宽,单位为赫兹
- S/N 是信噪比(信号功率除以噪声功率)

这句话说得很精彩:你的最大可靠传输速率取决于两个因素:你的带宽是多少(你的信道有多“宽”),以及你的信号在多大程度上超越了噪声。

带宽加倍,容量也加倍。但信噪比是对数函数,你需要指数级地增加信号功率才能获得容量的线性提升。

对于任意通道,还有一个更通用的公式,但更抽象:C = max I(X;Y),其中你最大化输入 X 和输出 Y 在所有可能输入分布上的互信息。

 

http://www.dtcms.com/a/466812.html

相关文章:

  • 马云做中国最大的网站产品开发管理系统
  • 教程网站后台密码石家庄市网站制作价格
  • day94—树—平衡二叉树判断(LeetCode-110)
  • 前端页面渲染方式梳理
  • Linux命令之ping用法
  • 怎么自己做五合一网站旅游短租公寓网站建设
  • 飞凌嵌入式ElfBoard-Linux系统基础入门-网络相关shell命令
  • [VoiceRAG] RTMiddleTier实时中间层 | WebSocket处理器 | 拦截
  • 美图秀秀“AI合照”功能风靡欧洲,荣登14国应用商店总榜第一
  • Arduino实战:智能家居控制系统的设计与实现
  • 网站seo评测常州中环做网站多少钱
  • 电影网站建设教程江苏常州建设局网站
  • 格式化json文件
  • PostgreSQL `pg_trgm` 性能调优与索引维护
  • 怎么找个人搭建网站网站h5什么意思
  • 基于单片机的多功能面粉面条馒头面点制作机设计
  • CMP平台(类Cloudera CDP7.3)在华为鲲鹏的Aarch64信创环境中的性能表现
  • HarmonyOS鸿蒙 - 获取设备唯一标识
  • 网站10月份可以做哪些有意思的专题天津网络优化招聘
  • [crackme]026-KeygenMe
  • next 项目中的 ‘use client‘ 是什么意思
  • 高通平台蓝牙学习--蓝牙双 A2DP/AVRCP 功能测试指南:从环境搭建到实操步骤
  • iOS 推送开发完整指南,APNs 配置、证书申请、远程推送实现与上架调试经验分享
  • 单线程拉取消息 + 自定义线程池处理消息,出现线程池超载解决
  • 无锡 网站开发网络优化需要哪些知识
  • 网站开发背景图模板网络培训学校排名
  • ByteDance——jy真题
  • 【原创】SpringBoot3+Vue3个人日记管理系统
  • 做网站需要哪些技术人员金华网站建设策划
  • 第6章 muduo网络库简介(1)