当前位置：首页 > news >正文

信息论（二）：符号的可预测性与压缩

news 2025/11/5 11:13:53

香农谈到“符号”及其“可预测性”时，指的并非我们今天所知的互联网，互联网是几十年后才出现的。这里是指任何符号流：摩尔斯电码的点和划、纸上的字母、电话线上的电脉冲。

在那个世界里，可预测性意味着非常实际的东西：某些信号出现的频率高于其他信号。

字母表例子完全正确。在英语中，E 出现的频率远高于 Q 或 Z。如果你要逐个字母发送信息，你可以利用这一点，给 E 一个短码，给 Q 一个长码。平均而言，每个字母使用的比特数会更少，这就是压缩。

这就是符号可预测性的实际意义：它是语言、声音或信号的统计形状，其元素的不均匀节奏。

香农的洞见在于，如果你知道这种节奏，也就是这些概率，你就能构建出最高效的编码来承载它。

他在贝尔实验室研究电话电路时发现了这一点：电流的每一次跳动，每一个微小的波形，都可以被视为从概率分布中抽取的一个符号。这就是为什么他1948年发表的论文《通信的数学理论》至今仍然是我们压缩文件、流媒体播放音乐，甚至传输DNA数据的基础。

这种可预测性并非什么神秘莫测的东西，它只是将世界中常见的不均匀性形式化为数学而已。

当你给常用符号分配较短的编码，给不常用符号分配较长的编码时，你就是在挤压信息中的冗余。所有高效的语言或压缩算法都是如此，从摩尔斯电码到 ZIP 文件，再到你的大脑存储记忆的方式。

但是，压缩的程度是有限的，这个极限就是熵本身。

为什么存在这个极限？熵 H(X) 告诉我们，信源发出的每个符号的平均信息量。即使你发明了世界上最巧妙的编码，你也无法用少于 H(X) 位的比特来表示每个符号的信息而不丢失任何信息。

这就像试图无限折叠一块布料，你可以折叠它、扭转它、把它压平，但布料的总量始终保持不变。熵就是这种守恒的“惊喜”量。

数学表达式：平均码长 ≥ H(X)，等式仅对完美码成立，完美码的码字长度 l_i 满足：

l_i = -log_2 P(x_i)，或尽可能接近整数。

我们来看看英文字母是如何运作的。E：非常常见，使用较短的码，例如“10”。Z：罕见，使用较长的码，例如“111011”。这并非随意之举，这是因为 P(E) 很大，P(Z) 很小，而编码长度大致与 -log₂P 成正比。

查看全文

http://www.dtcms.com/a/569860.html

网站与客户端的区别吗可以安装wordpress

git 高级命令模式典型应用--“同步云端 + 清理垃圾分支”的一键命令

天助网的网站百度排行榜明星

Kanass零基础学习，如何进行版本管理

深圳网站建设公司多吗英国做deal的网站

C++ 算法题中链表的操作技巧总结链表模拟力扣 2. 两数相加题解每日一题

CI/CD 是如何改变软件世界的？

企业级Agent智能体(智能小秘)之MCP服务认证实现

无极商城网站建设什么是网络营销策划书

将地球上的距离转化为经纬度差

华为OD机试双机位A卷 - 叠积木 (C++ Python JAVA JS GO)

Windows 2008 如何安装IIS？

wordpress後台建站赚钱项目

Day57 | 一文详解ThreadLocal

快速判断地图上的点是否在多边形内部

网站文章的作用邵阳市今天新闻

C#设计模式单例模式实现方式

网站是怎么搭建的简单个人博客模板网站

【题解】洛谷 P10083 [GDKOI2024 提高组] 不休陀螺 [思维 + 树状数组 + st 表]

C语言字符串操作：手写strlen+常用库函数解析

自己可以创建公司网站吗赣州网站制作培训

百度优化排名软件seo交流

链表相关的算法题（1）

速成网站建设有哪些专业做饰品的网站app

服务器负载过高的多维度诊断与性能瓶颈定位指南

超云发布R2425存储服务器：以全栈自研引领国产存储新方向

网站域名快速备案做网站没有高清图片怎么办

【Python基础】f-string用法

前端高频面试手写题——扁平化数组转树

网站建设合同通用范本免费推广引流怎么做

相关文章：