当前位置：首页 > news >正文

Go语言从零构建SQL数据库(9)-数据库优化器的双剑客

news 2025/11/4 6:37:47

数据库优化器的双剑客：谓词下推与列裁剪

在数据库查询优化的世界里，有两位特别重要的"超级英雄"：谓词下推和列裁剪。这两种优化技术虽然简单，却能带来惊人的性能提升。今天，我们就来揭开它们的神秘面纱，一探究竟。

为什么需要查询优化？

想象一下这个场景：你需要从一个包含1000万条客户记录的表中，找出所有来自北京、年龄超过30岁的客户的姓名和电话。

SELECT name, phone
FROM customers
WHERE city = 'Beijing' AND age > 30;

不加优化的执行流程可能是这样的：

这个过程存在明显浪费：

读取了全表的所有列，而最终只需要name和phone
先读取所有数据，再进行过滤，处理了大量不必要的数据

谓词下推：提前筛选，减少数据量

谓词下推的核心思想非常简单：尽早过滤，尽量减少后续处理的数据量。

谓词下推的工作原理

我们的谓词下推优化器实现了这些关键功能：

基本下推：将过滤条件直接推向表扫描节点
连接操作优化：针对JOIN操作，智能地将条件下推到合适的表
与索引选择结合：下推到表扫描的条件可以充分利用索引

实现中的关键函数

谓词下推优化器包含以下核心组件：

func (r *ImprovedPredicatePushDown) Apply(plan types.LogicalPlan) types.LogicalPlan
func (r *ImprovedPredicatePushDown) pushFilterDown(condition types.Expression, child types.LogicalPlan) types.LogicalPlan
func (r *ImprovedPredicatePushDown) pushFilterThroughJoin(condition types.Expression, join *logical.Join) types.LogicalPlan

其中最有趣的是连接操作的谓词下推。例如，当处理这样的查询时：

SELECT * FROM employees e JOIN departments d
ON e.dept_id = d.id
WHERE e.salary > 5000 AND d.location = 'Beijing'

优化器会将条件e.salary > 5000下推给employees表，将d.location = 'Beijing'下推给departments表。

列裁剪：只读需要的，不取多余的

列裁剪的核心思想同样简洁有力：只读取和处理查询真正需要的列。

列裁剪的工作原理

列裁剪优化器实现了这些核心功能：

需求分析：自顶向下分析哪些列是查询真正需要的
精确裁剪：仅保留需要的列，减少I/O和内存占用
递归应用：对计划树中的每一层都应用裁剪

列依赖收集

列裁剪的关键是准确收集每个操作符所依赖的列。例如，考虑以下查询：

SELECT name, age + 1 AS next_age
FROM customers
WHERE city = 'Beijing' AND salary > 5000

我们需要的列有：

name：直接在SELECT中使用
age：用于计算next_age
city和salary：用于过滤条件

而其他列如phone、email等都可以被裁剪掉。

两种优化的协同效应

当谓词下推和列裁剪一起工作时，效果会更加显著：

考虑以下查询：

SELECT c.name, o.order_date
FROM customers c JOIN orders o ON c.id = o.customer_id
WHERE c.city = 'Beijing' AND o.total > 1000

在1000万客户和5000万订单的数据集上：

优化策略	执行时间	I/O量	内存使用
无优化	30秒	2GB	800MB
仅谓词下推	10秒	200MB	300MB
仅列裁剪	15秒	800MB	200MB
两种都用	3秒	80MB	50MB

实现这些优化的技术挑战

实现这些看似简单的优化实际上面临一些技术挑战：

表达式分析：需要准确分析表达式中引用了哪些列
计划树重写：需要能够安全地重写计划树，保持语义不变
特殊情况处理：例如外连接时的谓词下推需要特别小心

案例分析：性能大幅提升

一个真实世界的例子可以说明这些优化的威力：

SELECT c.name, c.phone
FROM customers c
JOIN orders o ON c.id = o.customer_id
JOIN products p ON o.product_id = p.id
WHERE c.city = 'Beijing' AND o.order_date > '2023-01-01'AND p.category = 'Electronics';