NO.14数据结构红黑树|树高|转化4阶B树|插入操作|删除操作
红黑树的定义
总体特征: 是一种扩展的平衡二叉树, 且同一节点的左右子树树高不会相差超过 2 倍。
具体特征:
颜色特征: 红黑树的结点具有颜色属性, 结点为红色或黑色。
根特征: 根结点永远是黑色。
外部特征: 扩展的外部叶子结点都是黑色结点。
内部特征: 红色结点的两个子结点都是黑结点, 即不允许出现两个连续的红结点互为父子。
深度特征: 任何结点到其子孙外部结点的每条简单路径都包含相同数目的黑色结点。
由根/外部特征可知:在从根节点通往任一节点的沿途,黑节点都不少于红节点。
除去根节点本身,沿途所经黑节点的总数称作该节点的黑深度(black depth),根节点的黑深度为0。
与树的定义有什么区别?树的根节点深度为1.
由深度特征可知:从任一结点通往其任一后代外部节点的沿途,黑结点的总数也一定相等。
除去外部节点, 沿途经过的黑色结点的个数即为该结点的黑高度(black height),外部节点的黑高度为0
根节点的黑高度数值上等于外部结点的黑深度
红黑树树高
红黑树是平衡二叉树吗?含有n个内部结点的红黑树,它的高度范围是多少?
对于有 n 个内部结点的红黑树, 那么 log2(n+1)≤H≤2log2(n+1)=O(log2n)log_{2}(n+1)≤ H ≤ 2log_{2}(n+1) = O(log_{2}n)log2(n+1)≤H≤2log2(n+1)=O(log2n)
又任意一棵红黑树都可以等价为一棵4阶B树,而4阶B树的高度h最大值为
h≤log[m2][n+12]≤log2(n+1)
h \le \log_{\left[ \frac{m}{2} \right]}\left[ \frac{n+1}{2} \right]\le \log_{2}(n+1)
h≤log[2m][2n+1]≤log2(n+1)
又红黑树中红色结点不可以连续出现
log2(n+1)≤H≤2h=2log2(n+1)=O(log2n)log_{2}(n+1)≤ H ≤2h= 2log_{2}(n+1) = O(log_{2}n)log2(n+1)≤H≤2h=2log2(n+1)=O(log2n)
所以说红黑树尽管不是严格的平衡二叉树, 但是其高度也是在 O(log(n))的, 可以保持适度平衡。
红黑树与 4 阶 B 树
红黑树可以等价的看做一棵 4 阶 B 树: 即将黑结点及其孩子中的红结点看成 B 树的内部结点的关键码, 那么显然, 这棵 B 树满足每个内部的结点数量为 1~3 个, 满足 4 阶 B 树的定义, 且黑色结点个数为对应的 B 树内部结点的个数, 红黑树的阶(黑色高度) 与 B 树的树高相等。
有 n 个内部结点的红黑树, 对应于有 n 个关键码的 4 阶 B 树, 因此红黑树的黑色树高范围与 B 树树高范围是一一对应的, 具体推导过程见查找部分 n 个关键码的 B 数的树高范围,这里给出结论:
此外, 红黑树的调整也与 4 阶 B 树的调整方式一一对应。
一个黑结点及其红色的孩子结点共同构成B树一个内部结点中的所有关键码, 一个B树结点中有且仅含有一个黑色关键字且红色关键字不能紧邻。
推论:红黑树的黑色树高等于其所对应的4阶B树的树高。
因此,n个内部结点的红黑树的黑色树高取值范围等于n个关键码的4阶B树树高的取值范围。
红黑树的更新操作
插入
- 插入结点的双亲结点为黑色;
- 插入结点的双亲结点为红色;
- 双亲结点的兄弟结点是黑色结点;
- 双亲结点的兄弟结点是红色结点;
插入结点的双亲结点为黑色
插入结点的双亲结点的兄弟结点是红色结点
变为4阶B树
上溢分裂
拓扑结构变化最小
3+4重构法调整平衡二叉树
任意一棵平衡二叉树, 在进行插入或删除操作之前都应该是一棵平衡二叉树。
在进行插入删除操作之后, 若产生了不平衡情况, 不平衡结点一定位于该结点的双亲结
点或双亲结点以上的祖先节点。
任何一个需要被重平衡的结点都包含了两个子树。
插入的过程:
- 在对应位置插入新节点, 且置为红色。
- 若插入结点的父节点为黑色, 则算法结束; 否则, 进行双红调整。
双红修正的分类:
- 新增结点的叔父为黑色: 重构
- 新增结点的叔父也为红: 换色
插入结点的双亲结点是黑色结点
插入结点的双亲结点的兄弟结点是黑色结点(双红修正-1)
插入结点的双亲结点的兄弟结点是红色结点(双红修正-2)
相当于发生了一次结点的分裂, 关键字A向上分裂之后可能在上层同样引起双红调整的情况, 最坏的情况就是每一层都会发生上溢操作, 最后A传至根结点时, 根据红黑树的定义就需要将其强行变为黑色。
从B树的角度来说, 发生了上溢, 可能会向上传递;
从红黑树的角度来说, 仅仅发生了染色操作,可能会向上传递违法状态
插入操作总结:
其中只有 RR-2 这一种情况, 修正次数可能是 O(logn)。
综上, 红黑树的插入操作一定可以在 O(logn)的时间内完成。
需要特别指出的是, 只有在 RR-1 修复时才需做 1~2 次旋转; 而且一旦旋转后, 修复过程必然随即完成。 故就全树拓扑结构而言, 每次插入后仅涉及常数次修正。
删除
- 删除结点为红色结点;
- 删除结点为黑色结点;
- 删除结点的孩子结点为红色;
- 删除结点的孩子结点都为黑色结点;
- 删除结点的兄弟结点的孩子结点有红色结点;
- 删除结点的双亲结点为红色结点;
- 删除结点的双亲结点, 兄弟结点以及兄弟结点的孩子结点皆为黑色;
- 删除结点的兄弟结点为红色结点;
删除方式:
若被删除结点有一个孩子是外部结点, 则直接删除; 否则将其与它的后继结点的数值进行交换后(注意不交换颜色) 再删除
删除结点可能产生的问题: 可能导致新节点到各外部结点简单路径上经过的黑色结点的数目不同。
删除结点为红色结点
二叉排序树的删除操作,最终一定会转化为叶子结点或单分支结点的操作。
删除结点的孩子结点为红色
删除结点的孩子结点都为黑色结点
删除结点的兄弟结点的孩子结点(外甥/侄子结点)有红色结点(双黑修正-1)
删除结点的双亲结点为红色结点(双黑修正-2)
删除结点的双亲结点,兄弟结点以及兄弟结点的孩子结点皆为黑色(双黑修正-3)
此时, 对于局部来讲已经完成了删除操作, 而由于P所在的结点也发生了下溢, 所以删除操
作引发的下溢操作会沿着整棵树向上, 最多迭代O(logn)次必然结束。
删除结点的兄弟结点为红色结点(双黑修正-4)
两个意义: 被删除结点有了一个新的兄弟结点, 而且新的兄弟结点一定是黑色, 因此可以参考前面的情况。
此时的双亲结点P也变成了红色, 因此接下来只可能进行BB-1和BB-2两种立即完成调整的操作。
删除操作总结:
只有 BB-3 这一种情况, 修正次数是 O(logn)。
综上, 红黑树的删除操作一定可以在 O(logn)的时间内完成。
而且, 红黑树所有的情况下, 只要发生了旋转操作之后, 整个修正过程随即完成, 所以不论是双红修正还是双黑修正, 都只涉及常数次的拓扑排序调整操作。 因此, 在每次插入操作之后, 拓扑联接关系有所变化的结点绝不会超过常数个, 这也是与 AVL 树最重要的一个差异。
红黑树操作的拓扑结构稳定性: 变色操作的次数可能达到 O(logn), 而旋转操作的次数最多O(1)。