当前位置: 首页 > news >正文

信息论(二):符号的可预测性与压缩

香农谈到“符号”及其“可预测性”时,指的并非我们今天所知的互联网,互联网是几十年后才出现的。这里是指任何符号流:摩尔斯电码的点和划、纸上的字母、电话线上的电脉冲。

在那个世界里,可预测性意味着非常实际的东西:某些信号出现的频率高于其他信号。

字母表例子完全正确。在英语中,E 出现的频率远高于 Q 或 Z。如果你要逐个字母发送信息,你可以利用这一点,给 E 一个短码,给 Q 一个长码。平均而言,每个字母使用的比特数会更少,这就是压缩。

这就是符号可预测性的实际意义:它是语言、声音或信号的统计形状,其元素的不均匀节奏。

香农的洞见在于,如果你知道这种节奏,也就是这些概率,你就能构建出最高效的编码来承载它。

他在贝尔实验室研究电话电路时发现了这一点:电流的每一次跳动,每一个微小的波形,都可以被视为从概率分布中抽取的一个符号。这就是为什么他1948年发表的论文《通信的数学理论》至今仍然是我们压缩文件、流媒体播放音乐,甚至传输DNA数据的基础。

这种可预测性并非什么神秘莫测的东西,它只是将世界中常见的不均匀性形式化为数学而已。


当你给常用符号分配较短的编码,给不常用符号分配较长的编码时,你就是在挤压信息中的冗余。所有高效的语言或压缩算法都是如此,从摩尔斯电码到 ZIP 文件,再到你的大脑存储记忆的方式。

但是,压缩的程度是有限的,这个极限就是熵本身。

为什么存在这个极限?熵 H(X) 告诉我们,信源发出的每个符号的平均信息量。即使你发明了世界上最巧妙的编码,你也无法用少于 H(X) 位的比特来表示每个符号的信息而不丢失任何信息。

这就像试图无限折叠一块布料,你可以折叠它、扭转它、把它压平,但布料的总量始终保持不变。熵就是这种守恒的“惊喜”量。

数学表达式:平均码长 ≥ H(X),等式仅对完美码成立,完美码的码字长度 l_i 满足:

l_i = -log_2 P(x_i),或尽可能接近整数。

我们来看看英文字母是如何运作的。E:非常常见,使用较短的码,例如“10”。Z:罕见,使用较长的码,例如“111011”。这并非随意之举,这是因为 P(E) 很大,P(Z) 很小,而编码长度大致与 -log₂P 成正比。

http://www.dtcms.com/a/569860.html

相关文章:

  • 网站与客户端的区别吗可以安装wordpress
  • git 高级命令模式典型应用--“同步云端 + 清理垃圾分支”的一键命令
  • 天助网的网站百度排行榜明星
  • Kanass零基础学习,如何进行版本管理
  • 深圳网站建设公司多吗英国做deal的网站
  • C++ 算法题中链表的操作技巧总结 链表 模拟 力扣 2. 两数相加 题解 每日一题
  • CI/CD 是如何改变软件世界的?
  • 企业级Agent智能体(智能小秘)之MCP服务认证实现
  • 无极商城网站建设什么是网络营销策划书
  • 将地球上的距离转化为经纬度差
  • 华为OD机试双机位A卷 - 叠积木 (C++ Python JAVA JS GO)
  • Windows 2008 如何安装IIS?
  • wordpress後台建站赚钱项目
  • Day57 | 一文详解ThreadLocal
  • 快速判断地图上的点是否在多边形内部
  • 网站文章的作用邵阳市今天新闻
  • C#设计模式 单例模式实现方式
  • 网站是怎么搭建的简单个人博客模板网站
  • 【题解】洛谷 P10083 [GDKOI2024 提高组] 不休陀螺 [思维 + 树状数组 + st 表]
  • C语言字符串操作:手写strlen+常用库函数解析
  • 自己可以创建公司网站吗赣州网站制作培训
  • 百度优化排名软件seo交流
  • 链表相关的算法题(1)
  • 速成网站建设有哪些专业做饰品的网站app
  • 服务器负载过高的多维度诊断与性能瓶颈定位指南
  • 超云发布R2425存储服务器:以全栈自研引领国产存储新方向
  • 网站域名快速备案做网站没有高清图片怎么办
  • 【Python基础】f-string用法
  • 前端高频面试手写题——扁平化数组转树
  • 网站建设合同通用范本免费推广引流怎么做