当前位置: 首页 > news >正文

数据结构——二十一、哈夫曼树(王道408)

文章目录

  • 前言
  • 一.带权路径长度
    • 1.带权路径长度及相关概念
    • 2.计算实例
  • 二.哈夫曼树
    • 1.哈夫曼树的定义
    • 2.哈夫曼树的构造
      • 1.总体方法
      • 2.具体例子
    • 3.哈夫曼树的性质
  • 三.哈夫曼树的经典应用(哈夫曼编码)
      • 1.固定长度编码
        • 1.定义
        • 2.例子
      • 2.可变长度编码(哈夫曼编码)
        • 1.定义
        • 2.例子
        • 3.相关概念
        • 4.哈夫曼编码的应用
          • 1.例子
  • 四.知识回顾与重要考点
  • 结语

前言

文章摘要
本文系统介绍了哈夫曼树及其应用。首先定义了带权路径长度(WPL)的计算方法,通过实例比较不同二叉树的WPL值。重点阐述哈夫曼树的构造算法:每次合并权值最小的两棵树,最终生成WPL最小的最优二叉树,其具有结点总数2n-1、无度为1结点等特点。经典应用为哈夫曼编码,通过将高频字符分配短编码实现数据压缩,相比固定长度编码可显著减少传输位数。文中还通过字母频率统计案例,展示了哈夫曼编码实现59.71%压缩率的过程,并强调前缀编码的无歧义特性。最后总结了哈夫曼树的核心考点,包括构造步骤、性质及编码应用。

代码在文章开头部分,需要自取🧐

哈夫曼树

一.带权路径长度

1.带权路径长度及相关概念

在这里插入图片描述

  • 结点的:有某种现实含义的数值(如:表示结点的重要性等)
  • 结点的带权路径长度:从树的根到该结点的路径长度(经过的边数)与该结点上权值的乘积
  • 树的带权路径长度:树中所有叶结点的带权路径长度之和(WPL, Weighted Path Length)
    WPL=∑i=1nwiliWPL=\sum_{i=1}^{n}w_{i}l_{i}WPL=i=1nwili

2.计算实例

  • 图一
    在这里插入图片描述

  • WPL=2∗1+2∗3+2∗4+2∗5=26WPL=2*1+2*3+2*4+2*5=26WPL=21+23+24+25=26

  • 图二
    在这里插入图片描述

  • WPL=1∗5+2∗4+3∗1+3∗3=25WPL=1*5+2*4+3*1+3*3=25WPL=15+24+31+33=25

  • 图三
    在这里插入图片描述

  • WPL=1∗5+2∗4+3∗1+3∗3=25WPL=1*5+2*4+3*1+3*3=25WPL=15+24+31+33=25

  • 图四
    在这里插入图片描述

  • WPL=1∗1+2∗3+3∗5+3∗4=34WPL=1*1+2*3+3*5+3*4=34WPL=11+23+35+34=34

二.哈夫曼树

1.哈夫曼树的定义

  • 在含有n个带权叶结点的二叉树中,其中带权路径长度(WPL)最小的二叉树称为哈夫曼树,也称最优二叉树

2.哈夫曼树的构造

1.总体方法

  • 给定 n 个权值分别为 w1,w2,…,wnw_{1},w_{2},\dotsc ,w_{n}w1,w2,,wn 的结点,构造哈夫曼树的算法描述如下:
    1. 将这 n 个结点分别作为 n 棵仅含一个结点的二叉树,构成森林 F。
    2. 构造一个新结点,从 F 中选取两棵根结点权值最小的树作为新结点的左、右子树,并且将新结点的权值置为左、右子树上根结点的权值之和。
    3. 从 F 中删除刚才选出的两棵树,同时将新得到的树加入 F 中。
    4. 重复步骤 2 和 3,直至 F 中只剩下一棵树为止。

2.具体例子

  • 将下图几个结点组成哈夫曼树,结点下的数字为其权值
    在这里插入图片描述
  1. 我们每一次要从这个集合当中选择两个权值最小的节点,让他们俩成为兄弟,这个例子中,我们可以选择权值最小的a节点和c节点,并且把刚刚选择的两个节点(也就是a和c结点)的权值之和作为这棵新树的根节点的权值
    在这里插入图片描述

  2. 接下来做的事情是一样的,接着选择两个根节点的权值最小的两棵树让他们成为兄弟,这里我们可以选择e和刚才新生成的这棵树(当然你也可以选择e和b先结合)
    在这里插入图片描述

  3. 接下来操作与之前一样,不做赘述,最终结果如图
    在这里插入图片描述

  • 最终计算得出WPLmin=1∗7+2∗3+3∗2+4∗1+4∗2=31WPL_{\text{min}}=1*7+2*3+3*2+4*1+4*2=31WPLmin=17+23+32+41+42=31

3.哈夫曼树的性质

  • 每个初始结点最终都成为叶结点,且权值越小的结点到根结点的路径长度越大
  • 总共n个节点,我们要两两结合,让它们合并成一棵树,所以我们总共需要合并n-1次,每一次合并都会导致会增加一个分支节点,因此哈夫曼树的结点总数为2n-1
  • 哈夫曼树中不存在度为1的结点
  • 哈夫曼树并不唯一,但WPL必然相同且为最优
    • 如刚刚的例子也可以构造出如下图的哈夫曼树
      在这里插入图片描述

    • WPL=1∗7+3∗(1+2+2+3)=31WPL=1*7+3*(1+2+2+3)=31WPL=17+3(1+2+2+3)=31

三.哈夫曼树的经典应用(哈夫曼编码)

补充小知识:电报——点、划两个信号(二进制0/1),接收电报或者窃听电报的人只需要把这些点和划的信息翻译成有意义的字符就可以了

1.固定长度编码

1.定义
  • 固定长度编码——每个字符用相等长度的二进制位表示(如ASCII编码)
2.例子
  • 每个字符用长度为2的二进制表示
  • 假设要表示100个字符,其中80个字符为C,10个字符为A,8个字符为B,2个字符为D
字符ABCD
编码00011011
  • 所有字符的二进制长度=80∗2+10∗2+8∗2+2∗2=20080*2+10*2+8*2+2*2=200802+102+82+22=200 bit

  • 用树表示
    在这里插入图片描述

  • WPL=80∗2+10∗2+8∗2+2∗2=200WPL=80*2+10*2+8*2+2*2=200WPL=802+102+82+22=200

  • 可以发现:刚才我们计算最终发送的这个二进制码的长度,其实就是计算了这棵树的一个带权路径长度

2.可变长度编码(哈夫曼编码)

1.定义
  • 可变长度编码——允许对不同字符用不等长的二进制位表示
  • 有哈夫曼树得到哈夫曼编码——字符集中的每个字符作为一个叶子结点,各个字符出现的频度作为结点的权值,根据之前介绍的方法构造哈夫曼树
  • 哈夫曼编码就是一种可变长度编码
  • 哈夫曼树不唯一,因此哈夫曼编码不唯一
2.例子
  • 为了优化最终发送的二进制码的长度,我们可以采用将其转化为哈夫曼树的方法得到长度最优的编码方式
    在这里插入图片描述

  • 最终得到的四个字母的编码方案

字母ABCD
编码101110110
  • 这个编码方案发送100个字符的二进制长度,也就是这棵树的带权路径长度为WPL=80∗1+10∗2+2∗3+8∗3=130WPL=80*1+10*2+2*3+8*3=130WPL=801+102+23+83=130
3.相关概念
  • 若没有一个编码是另一个编码的前缀,则称这样的编码为前缀编码
  • 前缀码解码无歧义是一种不会出现歧义的编码方式
4.哈夫曼编码的应用
  • 哈夫曼编码可用于数据压缩
1.例子

在这里插入图片描述

  1. 将每个字符视为一个节点,按频率从小到大排序。重复合并频率最小的两个节点,形成新节点,直到只剩一个根节点。分配编码时,左分支为0,右分支为1。
  2. 从根节点到每个叶节点的路径生成编码。
  3. 基于上述过程,得到的编码表如下(编码为二进制字符串):
字符频率 (%)哈夫曼编码字符频率 (%)哈夫曼编码字符频率 (%)哈夫曼编码
E12.25010D3.91111101P2.8901111
T9.41000L3.77110010B1.47100100
A8.1911100C3.83111100V1.09001101
O7.2611000U2.5801110K0.410011000
I7.1010111M3.3410011J0.14001100110
N7.0610110W1.591100110X0.2100110010
S6.360110F2.26001111Q0.090011001111
R6.8510000G1.711100111Z0.080011001110
H4.5700110Y1.58100101
  1. 假设每个字符使用8位ASCII编码,平均码长为8位
  2. 根据哈夫曼编码和频率计算加权平均码长:
    • 计算公式:平均码长 = ∑(频率 × 码长) / 100
    • 计算过程:根据上表,∑(频率 × 码长) = 477.69
    • 平均码长 = 477.69 / 100 = 4.7769 位
  3. 数据压缩率:压缩后大小与原始大小之比
    • 压缩率 = 平均码长 / 原始码长 = 4.7769 / 8 ≈ 0.5971
    • 即压缩率为59.71%,表示压缩后数据大小约为原始数据的59.71%。

四.知识回顾与重要考点

在这里插入图片描述

结语

一更😉

如果想要看更多章节,请点击一、数据结构专栏导航页

http://www.dtcms.com/a/494492.html

相关文章:

  • Amazon ElastiCache 全解析:打造高性能的智能缓存架构
  • Set数据结构【ES6】
  • 【算法与数据结构】图的遍历与生成树实战:从顶点3出发,DFS/BFS生成树完整代码+流程拆解
  • AI游戏素材创作全攻略
  • 杭州网站app开发公司大连市网站制作电话
  • C标准库--错误信息<errno.h>
  • SpringCloud 获取Feign请求的真实IP地址
  • 目标检测算法在家禽养殖领域中的应用
  • MUI组件库与主题系统全面指南
  • 用 PyTorch 搭建 CIFAR10 线性分类器:从数据加载到模型推理全流程解析
  • 什么是机械设备制造ERP?哲霖软件如何助力企业实现降本增效?
  • 【小白笔记】关于 Python 类、初始化以及 PyTorch 数据处理的问题
  • HTTPS 内容抓取实战 能抓到什么、怎么抓、不可解密时如何定位(面向开发与 iOS 真机排查)
  • Gartner发布数据安全态势管理市场指南:将功能扩展到AI的特定数据安全保护是DSPM发展方向
  • 建站系统的应用场景一条龙搭建网站
  • 公司网站自己做的网站怎么被搜录
  • item_video:获得淘宝商品视频 API 接口实战演示说明
  • appium学习
  • [Linux]学习笔记系列 -- [kernel][irq]softirq
  • 家庭相册私有化:Immich+cpolar构建你的数字记忆堡垒
  • 存储同步管理器SyncManager 归纳
  • 做游戏网站多少钱建设电子商务网站要多少钱
  • iBizModel 实体通知(PSDENOTIFY)模型详解
  • mysql函数大全及举例
  • 人工智能综合项目开发3-----农业病虫害识别dataclean.py
  • R语言手搓一个计算生存分析C指数(C-index)的函数算法
  • 使用leaflet库加载服务器离线地图瓦片(这边以本地nginx服务器为例)
  • 无状态协议HTTP/HTTPS (笔记)
  • 模式识别与机器学习课程笔记(8):特征提取与选择
  • python+uniapp基于微信美食点餐系统小程序