当前位置: 首页 > news >正文

索引的选择与Change Buffer

1. 索引选择与Change Buffer

问题引出:普通索引 vs 唯一索引 ——如何选择?

在实际业务中,如果一个字段的值天然具有唯一性(如身份证号),并且业务代码已确保无重复写入,那就存在两种选择:

  • 创建唯一索引
  • 创建普通索引

虽然逻辑上两者都可以正确工作,但从 性能角度看,应该如何选择呢?

1.1. 查询场景下的性能差异

查询语句示例:

SELECT name FROM CUser WHERE id_card = 'xxxxxxxyyyyyyzzzzz';

查询过程分析:

  • InnoDB 使用 B+ 树索引,查找过程是按层遍历到叶子节点。
  • 普通索引

找到首个满足条件的记录后,还会继续查找,直到条件不再满足。

  • 唯一索引

找到首个满足条件的记录后立即停止。

性能差距分析:

  • InnoDB 是按数据页(默认16KB)为单位读取的。
  • 也就是说,命中一条记录时,整个数据页已在内存中
  • 普通索引多做一次判断和指针移动,性能开销极小,可以忽略不计。

结论:查询性能差异微乎其微

1.2. 更新场景下的性能差异 (关注 Change Buffer )

Change Buffer 的概念:

  • 又称 变更缓冲区,用于缓存针对尚未加载入内存的数据页的 DML 操作。
  • 目的是延迟磁盘读写,提升写性能。
  • 持久化存储,内存+磁盘双存储。

Merge 操作:

  • 当数据页被访问或系统后台线程定期触发时,change buffer 会被合并(merge)到实际数据页中。

两种索引对比:

特性

唯一索引

普通索引

查询性能差距

几乎无

几乎无

是否能使用 Change Buffer

❌ 不能使用

✅ 可以使用

写入磁盘前是否需加载数据页

✅ 是

❌ 否

写多读少场景优化空间

⛔️ 受限

✅ 提升明显

建议使用场景

严格校验唯一性

默认首选

  • 唯一索引需验证是否存在重复值,必须读入数据页判断唯一性,无法延迟IO。
  • 而普通索引可以直接缓存写操作,延迟数据页加载。

1.3. Change Buffer 的影响和适用场景

Change Buffer 的实际影响分析

1. 情况一:目标页在内存中

  • 唯一索引:读内存判断唯一性后插入,结束。
  • 普通索引:直接插入,结束。
  • ✅ 性能差异极小

2. 情况二:目标页不在内存中

  • 唯一索引:

需要将目标页从磁盘加载入内存进行唯一性判断 → 高成本的随机 IO

  • 普通索引:

操作直接写入 Change Buffer,延迟磁盘读写 → 性能提升明显

这是唯一索引与普通索引的性能关键差异点!

Change Buffer 的适用场景

适用场景 :

  • 写多读少 的系统
    例如:日志系统、账单系统等
    页面写完之后很少会被立即查询,Change Buffer 能发挥显著优势。

不适用场景 :

  • 写后立刻读 的业务模型

写操作刚缓存就被查询命中,触发 merge,反而增加了维护成本。

实际应用建议

  • 查询性能差异不大,但更新性能差异明显
  • 尽量优先选择普通索引,除非业务逻辑依赖数据库强一致性校验。
  • 写多读少场景下,配合开启 Change Buffer(默认开启),显著优化性能。
  • 使用机械硬盘时,Change Buffer 的效果更明显,应适当调大 innodb_change_buffer_max_size 参数(如 50%)
  • 若写后即读,可以考虑 关闭 Change Buffer

2. MySQL选错索引问题分析

2.1. 索引错选问题

问题背景与现象:

  • 有时 MySQL 执行 SQL 时并没有选择最佳索引,导致性能下降。
  • 通过一个具体例子说明了优化器因估算错误而选错索引的情况。

实验设计:

1. 表结构与索引

CREATE TABLE t (a INT,b INT,c INT,INDEX(a),INDEX(b)
);

2. 数据插入

  • 插入数据:(1,1,1)(100000,100000,100000) 共 10 万行。

预期查询语句

SELECT * FROM t WHERE a BETWEEN 10000 AND 20000;

3. 实验步骤(关键触发逻辑)

  • Session A:开启事务,未提交;
  • Session B:

删除所有数据;

重新插入 10 万行;

执行上面的查询。

4. 异常现象

  • 查询变慢,发现 优化器选择了全表扫描 而不是走 a 的索引。

执行计划对比与影响分析:

Q1:默认语句

SELECT * FROM t WHERE a BETWEEN 10000 AND 20000;
  • 使用了全表扫描,rows = 104620
  • 扫描耗时约 40ms

Q2:强制使用索引

SELECT * FROM t FORCE INDEX(a) WHERE a BETWEEN 10000 AND 20000;
  • 使用索引 arows = 10001
  • 扫描耗时约 21ms
  • 结论:Q2 明显更优

2.2. MySQL 优化器选错索引原因

优化器目标

  • 找出 执行代价最小 的执行计划;
  • 代价估算核心:行数(row estimate) + 回表成本

行数估算依赖“统计信息”

  • MySQL 使用索引的基数(cardinality) 估算结果行数;
  • 采样得出,不一定准确;
  • 命令查看基数:
SHOW INDEX FROM t;

统计信息采样机制

  • 参数 innodb_stats_persistent

ON:采样页数 20,触发更新阈值 10

OFF:采样页数 8,触发更新阈值 16

  • 采样带来的估算误差:

优化器以为 a between 10000 and 20000 会返回约 37000 行;

实际只有 10001 行,高估了结果量

回表代价高估

  • 索引 a 是二级索引,取出数据后需要回主键索引查全行(回表);
  • 优化器认为:

37000 次回表 ≈ 37000 次随机 IO;

而全表扫描只需约 100 页顺序读;

所以选择全表扫描。

2.3. 验证与解决方案

观察 EXPLAIN 输出

EXPLAIN SELECT * FROM t WHERE a BETWEEN 10000 AND 20000;
  • rows ≈ 37116(高估)→ 优化器认为成本更高。

修复手段:更新统计信息

ANALYZE TABLE t;
  • 执行后重新 EXPLAIN,rows 变为 10001;
  • 优化器重新选择正确索引。

总结与实践建议

类别

内容

问题核心

优化器因统计信息误差、高估回表代价,选错了索引

典型表现

EXPLAIN 中 rows

显著高估;执行计划走了全表扫描

核心原因

索引基数估算不准确;二级索引导致回表开销被放大

解决办法

使用 ANALYZE TABLE

更新统计信息

实践建议

当发现慢查询/rows 异常时,第一步先做统计更新;必要时使用 force index

临时规避

相关文章:

  • Github 热点 Github 热点 Syncthing:多台设备,持续同步文件,安全同步,隐私无忧!
  • Java网络编程实战:TCP/UDP Socket通信详解与高并发服务器设计
  • [蓝桥杯]分考场
  • 具有离散序列建模的统一多模态大语言模型【AnyGPT】
  • 如何基于端口监控FreeSWITCH的Recv-Q?
  • 某航参数逆向及设备指纹分析
  • 【2025年软考中级】第二章 2.1 程序设计语言的基本概念
  • 基于大模型预测带状疱疹(无并发症)诊疗方案的研究报告
  • 第N个泰波那契数列 --- 动态规划
  • 远程线程注入
  • Vue ①-实例 || 指令
  • Vue-自定义指令
  • PHP下实现RSA的加密,解密,加签和验签
  • 进程间通信(信号量)
  • 山东大学软件学院项目实训-基于大模型的模拟面试系统-面试官和面试记录的分享功能(2)
  • Aviator复习
  • 【快速解决】数据库快速导出成sql文件
  • 【Netty系列】实现HTTP文件服务器
  • 【Kotlin】简介变量类接口
  • AI预测3D新模型百十个定位预测+胆码预测+去和尾2025年5月31日第94弹
  • 网站建设优化怎么做/口碑营销有哪些
  • 网站样式用什么做的/seo关键词排名优化专业公司
  • 大连哪里做网站/网站查询系统
  • 网站建设 选猴王网络/深圳疫情防控最新消息
  • 网站制作 流程/头条搜索
  • 域名申请到网站建设教程/网络软文名词解释