Mysql底层专题(四)索引优化实战一
目录
1、联合索引第一个字段用范围不会走索引
2、强制走索引
3、覆盖索引优化
原因:
4、in和or
5、like KK% 一般情况都会走索引
二、Mysql如何选择合适的索引
1、例子
2、trace工具
三、常见SQL深入优化
1、Order by与Group by优化
(1)case1:
(2)case2:
(3)case3:
(4)case4:
(5)case5:
(6)case6:
(7)case7:
(8)case8:
总结:
2、Using filesort文件排序原理详解
四、索引设计原则
1. 索引建立时机
2. 尽量建联合索引
3. 索引基数选择
4. 长字符串采用前缀索引
5. WHERE与ORDER BY优先级
6. 慢SQL查询优化
五、实战例子
1、联合索引第一个字段用范围不会走索引
原因:联合索引第一个字段就用范围查找不会走索引,mysql内部可能觉得第一个字段就用范围,结果集应该很大,回表效率不高,还不如就全表扫描
EXPLAIN SELECT * FROM employees
WHERE name > 'LiLei' AND age = 22 AND position ='manager';
扫描行数:
2、强制走索引
虽然使用了强制走索引让联合索引第一个字段范围查找也走索引,扫描的行rows看上去也少了点,但是最终查找效率不一定比全表扫描高,因为回表效率不高
扫描行数:
EXPLAIN SELECT * FROM employees
force index(idx_name_age_position)
WHERE name > 'LiLei' AND age = 22 AND position ='manager';
做一个小实验:
‐‐ 关闭查询缓存set global query_cache_size=0;set global query_cache_type=0;‐‐ 执行时间0.333sSELECT * FROM employees WHERE name > 'LiLei';‐‐ 执行时间0.444s
SELECT * FROM employees force index(idx_name_age_position) WHERE name > 'LiLei';
结论:扫描行数不等于查询快慢,也包括回表次数...之类的
3、覆盖索引优化
EXPLAIN SELECT name,age,position FROM employees
WHERE name > 'LiLei' AND age = 22 AND position ='manager';
原因:
1. 避免回表操作
覆盖索引的核心优势在于索引本身包含了查询所需的所有字段:
- 普通索引查询需要先通过索引找到主键,再通过主键回表查询完整记录
- 覆盖索引则直接在索引中就能获取所有需要的数据,无需回表
2.减少I/O操作
由于不需要访问数据表所以:
- 减少了磁盘I/O次数(索引通常比表数据小)
- 减少了内存占用(不需要加载完整记录到内存)
3.优化器更倾向选择覆盖索引
- 索引的数据量比表数据小很多
- 索引通常能更好地利用内存缓存
- 查询的所有列都包含在索引中
4.索引结构本身的优势(B+树)
- 索引数据按查询条件有序存储,扫描效率高
- 索引节点通常缓存在内存中,访问速度快
4、in和or
in和or在表数据量比较大的情况会走索引,在表记录不多的情况下会选择全表扫描
EXPLAIN SELECT * FROM employees
WHERE name in ('LiLei','HanMeimei','Lucy') AND age = 22 AND position ='manager';
5、like KK% 一般情况都会走索引
EXPLAIN SELECT * FROM employees
WHERE name like 'LiLei%' AND age = 22 AND position ='manager';
这里有一个概念,索引下推(Index Condition Pushdown,ICP), like KK%其实就是用到了索引下推优化
什么是索引下推了?
对于辅助的联合索引(name,age,position),正常情况按照最左前缀原则,
SELECT * FROM employees WHERE name like 'LiLei%' AND age = 22 AND position ='manager'
这种情况只会走name字段索引,因为根据name字段过滤完,得到的索引行里的age和 position是无序的,无法很好的利用索引。
(1)在MySQL5.6之前的版本,这个查询只能在联合索引里匹配到名字是 'LiLei' 开头的索引,然后拿这些索引对应的主键逐个回表,到主键索引上找出相应的记录,再比对age和position这两个字段的值是否符合。
(2)MySQL 5.6引入了索引下推优化,可以在索引遍历过程中,同时对索引中包含的所有字段先做判断,过滤掉不符合条件的记录之后再回表,可以有效的减少回表次数。(使用了索引下推优化后,匹配到名字是 'LiLei' 开头的索引之后,同时还会在索引里过滤age和position这两个字段,拿着过滤完剩下的索引对应的主键id再回表查整行数据)
总结:索引下推会减少回表次数,对于innodb引擎的表索引下推只能用于二级索引,innodb的主键索引(聚簇索引)树叶子节点上保存的是全 行数据,所以这个时候索引下推并不会起到减少查询全行数据的效果
为什么范围查找Mysql没有用索引下推优化?
估计应该是Mysql认为范围查找过滤的结果集过大,like KK% 在绝大多数情况来看,过滤后的结果集比较小,所以这里Mysql选择给 like KK% 用了索引下推优化,当然这也不是绝对的,有时like KK% 也不一定就会走索引下推。
二、Mysql如何选择合适的索引
1、例子
我们先来看两个sql语句
EXPLAIN select * from employees where name > 'a';
结果:
EXPLAIN select * from employees where name > 'zzz';
结果:
这是因为有cost成本计算
对于上面这两种 name>'a' 和 name>'zzz' 的执行结果,mysql最终是否选择走索引或者一张表涉及多个索引,mysql最终如何选择索引,我们需要用到一个工具:
2、trace工具
(开启trace工具会影响mysql性能,所以只能临时分析sql使用,用完之后立即关闭)
set session optimizer_trace="enabled=on",end_markers_in_json=on; ‐‐开启traceselect * from employees where name > 'a' order by position;SELECT * FROM information_schema.OPTIMIZER_TRACE;SET SESSION optimizer_trace="enabled=off"; --关闭trace
结果:
查看trace字段:
第一阶段:格式化SQL
第二阶段:SQL优化(去掉无意义的语句、联合索引排序...)
- 预估表的访问成本(全表扫描情况、扫描行数、查询成本、回表...)
- 查询可能走的索引(分析各个索引使用成本,包括行数、cost成本)
- "considered_access_paths": --最终选择的访问路径
第三阶段:SQL执行阶段
{"steps": [{"join_preparation": { --第一阶段:SQL准备阶段,格式化sql"select#": 1,"steps": [{"expanded_query": "/* select#1 */ select `employees`.`id` AS `id`,`employees`.`name` AS `name`,`employees`.`age` AS `age`,`employees`.`position` AS `position`,`employees`.`hire_time` AS `hire_time` from `employees` where (`employees`.`name` > 'a') order by `employees`.`position`"}] /* steps */} /* join_preparation */},{"join_optimization": { --第二阶段:SQL优化阶段"select#": 1,"steps": [{"condition_processing": { --条件处理"condition": "WHERE","original_condition": "(`employees`.`name` > 'a')","steps": [{"transformation": "equality_propagation","resulting_condition": "(`employees`.`name` > 'a')"},{"transformation": "constant_propagation","resulting_condition": "(`employees`.`name` > 'a')"},{"transformation": "trivial_condition_removal","resulting_condition": "(`employees`.`name` > 'a')"}] /* steps */} /* condition_processing */},{"substitute_generated_columns": {} /* substitute_generated_columns */},{"table_dependencies": [ --表依赖详情{"table": "`employees`","row_may_be_null": false,"map_bit": 0,"depends_on_map_bits": [] /* depends_on_map_bits */}] /* table_dependencies */},{"ref_optimizer_key_uses": [] /* ref_optimizer_key_uses */},{"rows_estimation": [ --预估表的访问成本{"table": "`employees`","range_analysis": {"table_scan": { --全表扫描情况"rows": 10123, --扫描行数"cost": 2054.7 --查询成本} /* table_scan */,"potential_range_indexes": [ --查询可能使用的索引{"index": "PRIMARY", --主键索引"usable": false,"cause": "not_applicable"},{"index": "idx_name_age_position", --辅助索引"usable": true,"key_parts": ["name","age","position","id"] /* key_parts */}] /* potential_range_indexes */,"setup_range_conditions": [] /* setup_range_conditions */,"group_index_range": {"chosen": false,"cause": "not_group_by_or_distinct"} /* group_index_range */,"analyzing_range_alternatives": { --分析各个索引使用成本"range_scan_alternatives": [{"index": "idx_name_age_position","ranges": ["a < name" --索引使用范围] /* ranges */,"index_dives_for_eq_ranges": true,"rowid_ordered": false, --使用该索引获取的记录是否按照主键排序"using_mrr": false,"index_only": false, --是否使用覆盖索引"rows": 5061, --索引扫描行数"cost": 6074.2, --索引使用成本"chosen": false, --是否选择该索引"cause": "cost"}] /* range_scan_alternatives */,"analyzing_roworder_intersect": {"usable": false,"cause": "too_few_roworder_scans"} /* analyzing_roworder_intersect */} /* analyzing_range_alternatives */} /* range_analysis */}] /* rows_estimation */},{"considered_execution_plans": [{"plan_prefix": [] /* plan_prefix */,"table": "`employees`","best_access_path": { --最优访问路径"considered_access_paths": [ --最终选择的访问路径{"rows_to_scan": 10123,"access_type": "scan", --访问类型:为scan,全表扫描"resulting_rows": 10123,"cost": 2052.6,"chosen": true, --确定选择"use_tmp_table": true}] /* considered_access_paths */} /* best_access_path */,"condition_filtering_pct": 100,"rows_for_plan": 10123,"cost_for_plan": 2052.6,"sort_cost": 10123,"new_cost_for_plan": 12176,"chosen": true}] /* considered_execution_plans */},{"attaching_conditions_to_tables": {"original_condition": "(`employees`.`name` > 'a')","attached_conditions_computation": [] /* attached_conditions_computation */,"attached_conditions_summary": [{"table": "`employees`","attached": "(`employees`.`name` > 'a')"}] /* attached_conditions_summary */} /* attaching_conditions_to_tables */},{"clause_processing": {"clause": "ORDER BY","original_clause": "`employees`.`position`","items": [{"item": "`employees`.`position`"}] /* items */,"resulting_clause_is_simple": true,"resulting_clause": "`employees`.`position`"} /* clause_processing */},{"reconsidering_access_paths_for_index_ordering": {"clause": "ORDER BY","steps": [] /* steps */,"index_order_summary": {"table": "`employees`","index_provides_order": false,"order_direction": "undefined","index": "unknown","plan_changed": false} /* index_order_summary */} /* reconsidering_access_paths_for_index_ordering */},{"refine_plan": [{"table": "`employees`"}] /* refine_plan */}] /* steps */} /* join_optimization */},{"join_execution": { --第三阶段:SQL执行阶段"select#": 1,"steps": [] /* steps */} /* join_execution */}] /* steps */
}
三、常见SQL深入优化
1、Order by与Group by优化
(1)case1:
Using index condition:查询的列可以被索引部分过滤但不需要完全满足最左前缀
Using filesort:将用外部排序而不是索引排序
分析:利用最左前缀法则:中间字段不能断,因此查询用到了name索引,从key_len=74也能看出,age索引列是用在排序过程中,因为Extra字段里没有using filesort ,也没有使用order by
(2)case2:
使用了文件排序Using filesort
从explain的执行结果来看:key_len=74,查询使用了name索引,由于用了position进行排序,跳过了age,出现了Using filesort。
case1和case2的原因:联合索引在第一个字段相等的情况下根据第二个字段排序是没有问题的,但是跳过第二个字段直接第三个字段排序就有问题了,第二个字段不确定
(3)case3:
会走索引,查找只用到索引name,age和position用于排序,无Using filesort。
(4)case4:
和Case 3中explain的执行结果一样,但是出现了Using filesort,因为索引的创建顺序为name,age,position,但是排序的时候age和position颠倒位置了。
(5)case5:
与Case 4对比,在Extra中并未出现Using filesort,因为age为常量相当于没有了,在排序中被优化,所以索引未颠倒,不会出现Using filesort。
(6)case6:
虽然排序的字段列与索引顺序一样,且order by默认升序,这里position desc变成了降序,导致与索引的排序方式不同,从而产生Using filesort。Mysql8以上版本有降序索引可以支持该种查询方式。
(7)case7:
对于排序来说,多个相等条件也是范围查询 ,不会走索引
通过后面字段排序的前提是前面字段相等!!
(8)case8:
出现Using filesort,可能是mysql可能觉得数据量太大了,可以用覆盖索引优化
总结:
1、MySQL支持两种方式的排序filesort和index,Using index是指MySQL扫描索引本身完成排序。index效率高,filesort效率低。
2、order by满足两种情况会使用Using index。
(1) order by语句使用索引最左前列。
(2) 使用where子句与order by子句条件列组合满足索引最左前列。
3、尽量在索引列上完成排序,遵循索引建立(索引创建的顺序)时的最左前缀法则。
4、如果order by的条件不在索引列上,就会产生Using filesort。
5、能用覆盖索引尽量用覆盖索引
6、group by与order by很类似,其实质是先排序后分组,遵照索引创建顺序的最左前缀法则。对于group by的优化如果不需要排序的可以加上order by null禁止排序。注意,where高于having,能写在where中的限定条件就不要去having限定了。
2、Using filesort文件排序原理详解
filesort文件排序方式,在内存里面是整个聚簇索引
单路排序:
- 是一次性取出满足条件行的所有字段,然后在内存sort buffer中进行排序;
- 用trace工具可以看到sort_mode信息里显示< sort_key, additional_fields >或者< sort_key, packed_additional_fields >
双路排序(又叫回表排序模式):
- 相应的条件取出相应的排序字段和可以直接定位行数据的行 ID,然后在内存 sort buffer 中进行排序,排序完后需要再次取回其它需要的字段;
- 用trace工具可以看到sort_mode信息里显示< sort_key, rowid >
自动设置:MySQL 通过比较系统变量 max_length_for_sort_data(默认1024字节) 的大小和需要查询的字段总大小来判断使用哪种排序模式。
- 如果 字段的总长度小于max_length_for_sort_data ,那么使用 单路排序模式;
- 如果 字段的总长度大于max_length_for_sort_data ,那么使用 双路排序模式。
例子:
mysql> set session optimizer_trace="enabled=on",end_markers_in_json=on; --开启trace
mysql> select * from employees where name = 'zhuge' order by position;
mysql> select * from information_schema.OPTIMIZER_TRACE;trace排序部分结果:
"join_execution": { --Sql执行阶段"select#": 1,"steps": [{"filesort_information": [{"direction": "asc","table": "`employees`","field": "position"}] /* filesort_information */,"filesort_priority_queue_optimization": {"usable": false,"cause": "not applicable (no LIMIT)"} /* filesort_priority_queue_optimization */,"filesort_execution": [] /* filesort_execution */,"filesort_summary": { --文件排序信息"rows": 10000, --预计扫描行数"examined_rows": 10000, --参与排序的行"number_of_tmp_files": 3, --使用临时文件的个数,这个值如果为0代表全部使用的sort_buffer内存排序,否则使用的磁盘文件排序"sort_buffer_size": 262056, --排序缓存的大小,单位Byte"sort_mode": "<sort_key, packed_additional_fields>" --排序方式,这里用的单路排序} /* filesort_summary */}] /* steps */} /* join_execution */mysql> set max_length_for_sort_data = 10; --employees表所有字段长度总和肯定大于10字节
mysql> select * from employees where name = 'zhuge' order by position;
mysql> select * from information_schema.OPTIMIZER_TRACE;trace排序部分结果:
"join_execution": {"select#": 1,"steps": [{"filesort_information": [{"direction": "asc","table": "`employees`","field": "position"}] /* filesort_information */,"filesort_priority_queue_optimization": {"usable": false,"cause": "not applicable (no LIMIT)"} /* filesort_priority_queue_optimization */,"filesort_execution": [] /* filesort_execution */,"filesort_summary": {"rows": 10000,"examined_rows": 10000,"number_of_tmp_files": 2,"sort_buffer_size": 262136, "sort_mode": "<sort_key, rowid>" --排序方式,这里用的双路排序} /* filesort_summary */}] /* steps */} /* join_execution */mysql> set session optimizer_trace="enabled=off"; --关闭trace
我们先看单路排序的详细过程:
- 从索引name找到第一个满足 name = ‘zhuge’ 条件的主键 id
- 根据主键 id 取出整行,取出所有字段的值,存入 sort_buffer 中
- 从索引name找到下一个满足 name = ‘zhuge’ 条件的主键 id
- 重复步骤 2、3 直到不满足 name = ‘zhuge’
- 对 sort_buffer 中的数据按照字段 position 进行排序
- 返回结果给客户端
我们再看下双路排序的详细过程:
- 从索引 name 找到第一个满足 name = ‘zhuge’ 的主键id
- 根据主键 id 取出整行,把排序字段 position 和主键 id 这两个字段放到 sort buffer 中
- 从索引 name 取下一个满足 name = ‘zhuge’ 记录的主键 id
- 重复 3、4 直到不满足 name = ‘zhuge’
- 对 sort_buffer 中的字段 position 和主键 id 按照字段 position 进行排序
- 遍历排序好的 id 和字段 position,按照 id 的值回到原表中取出 所有字段的值返回给客户端
其实对比两个排序模式,单路排序会把所有需要查询的字段都放到 sort buffer 中,而双路排序只会把主键和需要排序的字段放到 sort buffer 中进行排序,然后再通过主键回到原表查询需要的字段。
如果 MySQL 排序内存 sort_buffer 配置的比较小并且没有条件继续增加了,可以适当把 max_length_for_sort_data 配置小点,让优化器选择使用双路排序算法,可以在sort_buffer 中一次排序更多的行,只是需要再根据主键回到原表取数据。
如果 MySQL 排序内存有条件可以配置比较大,可以适当增大 max_length_for_sort_data 的值,让优化器优先选择全字段排序(单路排序),把需要的字段放到 sort_buffer 中,这样排序后就会直接从内存里返回查询结果了。
所以,MySQL通过 max_length_for_sort_data 这个参数来控制排序,在不同场景使用不同的排序模式,从而提升排序效率。
注意,如果全部使用sort_buffer内存排序一般情况下效率会高于磁盘文件排序,但不能因为这个就随便增大sort_buffer(默认1M),mysql很多参数设置都是做过优化的,不要轻易调整。
四、索引设计原则
1. 索引建立时机
- 不要建完表马上建立索引
- 先完成主体业务功能开发
- 收集分析所有相关SQL后再建立索引
2. 尽量建联合索引
- 优先设计1-3个联合索引,减少单值索引
- 联合索引应尽量包含:
- WHERE条件字段
- ORDER BY字段
- GROUP BY字段
- 注意字段顺序满足最左前缀原则
3. 索引基数选择
- 避免在小基数字段建索引(如性别只有2种值)
- 优先选择基数大的字段(值多的字段)
- 小基数索引效率可能低于全表扫描
4. 长字符串采用前缀索引
前缀索引:对字符类型列的前若干字符建立的索引,能缩小索引文件大小,提升查询效率,但可能存在精确性稍差的情况,比如对姓名字段取前几个字创建索引。
- 优先对字段类型小的列建索引(如tinyint)
- 大字段(如varchar(255))可考虑前缀索引
- 例:KEY index(name(20),age,position)
- 只索引前N个字符
- 注意:前缀索引不支持排序和分组
5. WHERE与ORDER BY优先级
- 两者冲突时优先满足WHERE条件
- 先用索引快速筛选数据,再排序
- 筛选后数据量少,排序成本低
6. 慢SQL查询优化
- 监控后台慢SQL,会影响性能
- 针对慢查询做特定索引优化
- 慢查询笔记
五、实战例子
IN用于直接比较字段与值列表:字段 IN (值1, 值2...)
EXISTS需要一个子查询:EXISTS (SELECT ... FROM ... WHERE ...)
特性 | IN | EXISTS |
---|---|---|
用途 | 检查字段是否在给定值列表中 | 检查子查询是否返回任何行 |
语法 | 字段 IN (值1, 值2...) | EXISTS (子查询) |
性能 | 适合静态值列表 | 适合关联子查询 |
适用场景 | 简单值匹配 | 存在性检查、关联查询 |
NULL处理 | NULL IN (...) 返回UNKNOWN | EXISTS对NULL敏感 |