当前位置：首页 > news >正文

MySQL底层专题之索引数据结构和存储引擎

news 2025/11/3 10:11:30

一、索引

索引的本质：

索引的数据结构：

二叉树：

红黑树：

Hash表：

特点：

B-Tree：

B+Tree(B-Tree变种):

对比一下B和B+树：

为什么数据库底层选择B+而不是B-Tree：

为什么数据库底层选择B+而不是Hash：

二、存储引擎

本文分为innoDB和MyISAM

1、在MyISAM下的B+索引：

2、在InnoDB下的B+索引：

面试题来了：

三、聚集索引

四、联合索引/复合索引

一、索引

索引的本质：

索引是帮助MySQL高效获取数据的排好序的数据结构

数据表的每一行虽然是挨在一起的，但在实际上在磁盘上是随机分布的

索引的数据结构：

二叉树
红黑树
Hash表
B-Tree

二叉树：

如果我们查询像Col1这样的有序排列，二叉树没有起到任何优化的效果，无效率提升，如下图：

红黑树：

红黑树是一种自平衡的二叉搜索树，在普通二叉树的基础上通过额外的规则和操作来维持平衡

红黑树通过以下规则维持平衡：

节点非红即黑
根节点必须为黑
红色节点的子节点必须为黑（即不能有连续红节点）
从任一节点到其叶子的所有路径包含相同数量的黑节点（黑高相同）
叶子节点（NIL节点）视为黑色

在数据量大的时候，树的高度会很高，比如10亿数据时：log₂(10^9) ≈ 30层，每次查询需要30次节点访问

Hash表：

来看个例子：

当我们把下图这一列数据做一个hash索引的时候，

当我们存储索引的时候，他会对我们的索引做一次hash运算得到结果之后存到hash桶里去，类似于一种hash数组，当有一个新的数据算出来和前者一样，虽然两者的键不同（"Alice" vs "Jim"），但哈希函数计算后得到相同的桶索引，采用链地址法解决哈希冲突，查询的时候会对链表采取遍历找到jim

链表的一个节点除了存索引元素之外还会存索引所在行的物理磁盘地址，下图

hash索引都在磁盘上

特点：

对索引的key进行一次hash计算就可以定位出数据存储的位置
很多时候Hash索引要比B+ 树索引更高效
仅能满足 “=”，“IN”，不支持范围查询
hash冲突问题

B-Tree：

• 叶节点具有相同的深度，叶节点的指针为空

• 所有索引元素不重复（不是冗余索引）

• 节点中的数据索引从左到右递增排列

每个节点的内存：

键（8B）+ 完整数据行（假设1KB） + 子指针（6B） ≈ 1014B/条目
节点容量：16KB/1014B≈16个条目

B+Tree(B-Tree变种):

• 非叶子节点不存储data，仅存储索引(冗余)，可以放更多的索引

• 叶子节点包含所有索引字段

• 叶子节点用指针连接，提高区间访问的性能

mysql给每一行设置最大内存16kb
对于专门的内存数据库，整个B+树结构（包括所有父节点，也就是图中第一行）会常驻内存占，一个索引也就是key的大小（比如bigint占8个字节（8B）），但是不要经常占用内存
每一行索引的下一个是磁盘文件的地址，也就是白色的地方，分配6个字节
也就是16kb/（8+6）B=1170个，每一个节点都是16kb，因此一条线的三层就是1170*1170*16kb约为2k万，但是高度h=3