当前位置：首页 > news >正文

深入starrocks-怎样实现多列联合统计信息

news 2025/10/14 6:57:30

StarRocks 的多列联合统计信息（Multi-column Joint Statistics）自 v3.5.0 版本起正式支持，主要通过 ** 联合基数估计（Cardinality Estimation）** 实现，用于优化多维查询场景下的执行计划。以下是其实现原理、存储机制及应用场景的详细解析：

一、核心设计目标

传统 CBO 优化器假设列之间完全独立，导致在处理多列关联查询时基数估算偏差较大。StarRocks 的联合统计信息旨在解决这一问题：

精准基数估算：通过多列联合 NDV（Distinct Value Count）修正独立列假设带来的误差。
优化聚合下推：在 GROUP BY、JOIN 等操作中更准确地评估中间结果集大小，减少资源浪费。
支持复杂查询：提升星型模型、雪花模型等复杂场景下的查询性能。

二、实现原理与技术细节

1. 统计信息类型

目前仅支持多列联合 NDV，即统计多列组合的唯一值数量。例如，对于列(A, B)，联合 NDV 表示A和B的唯一组合数。这一指标通过以下方式计算：

全量采集：扫描全表计算真实联合 NDV（适用于小表或手动触发场景）。
抽样估算：通过采样数据估算联合 NDV（适用于大表，需配置statistic_sample_collect_rows）。

2. 数据存储结构

联合统计信息存储在内部元数据库_statistics_的multi_column_statistics表中，包含以下核心字段：

table_id/partition_id：标识统计信息所属的表或分区。
column_names：联合统计的列名列表（如["A", "B"]）。
joint_ndv：联合 NDV 值。
create_time/update_time：统计信息的生成和更新时间戳。

3. 采集机制

手动触发：通过ANALYZE TABLE语句显式采集，支持同步 / 异步模式：

-- 同步采集（阻塞当前会话）
ANALYZE TABLE orders COLLECT STATS FOR COLUMNS (user_id, order_date);-- 异步采集（立即返回结果）
ANALYZE TABLE orders COLLECT STATS FOR COLUMNS (user_id, order_date) ASYNC;

自动触发：需通过CREATE ANALYZE自定义自动任务，并关闭默认全量采集（enable_collect_full_statistic = false）。

4. 更新策略

全量更新：每次采集覆盖历史数据，确保准确性。
分区级采集：仅对更新的分区进行统计，减少资源消耗。
健康度检测：通过statistic_auto_collect_ratio（默认 0.8）判断统计信息是否需要更新。若实际数据变化超过阈值，自动触发采集。

三、应用场景与优化效果

1. 典型场景

聚合下推优化：
```
SELECT user_id, COUNT(DISTINCT order_id) 
FROM orders 
WHERE order_date BETWEEN '2025-01-01' AND '2025-12-31' 
GROUP BY user_id;
```
联合统计信息(user_id, order_date)可帮助优化器准确估算分组后的基数，避免不必要的 Shuffle 操作。
多列 JOIN 优化：
```
SELECT o.order_id, p.product_name
FROM orders o
JOIN products p ON o.product_id = p.product_id AND o.region = p.region;
```
联合统计信息(product_id, region)可修正 JOIN 条件的选择性，减少中间结果集大小。

2. 性能收益

根据 StarRocks 官方测试，在包含多列关联的复杂查询中，启用联合统计信息可使：

基数估算误差降低 30%-50%。
查询执行时间减少 15%-25%（视数据分布复杂度而定）。

四、使用限制与最佳实践

1. 当前限制

列数限制：暂未明确限制联合列数，但实际建议不超过 3 列（避免计算复杂度指数级上升）。
数据类型限制：支持数值、日期、字符串类型，但不建议包含 TEXT/BLOB 等大对象类型。
自动采集限制：需手动配置CREATE ANALYZE任务，默认自动采集仅覆盖单列统计信息。

2. 最佳实践

优先高频查询列：选择在 WHERE、JOIN、GROUP BY 子句中高频出现的列组合。
结合直方图：对倾斜严重的列（如order_date）同时使用直方图和联合统计信息，提升估算精度。
监控统计信息健康度：通过information_schema.COLUMN_STATS_USAGE视图查看统计信息的使用频率和更新时间。
大表优化策略：
- 配置statistic_max_full_collect_data_size（默认 100GB），超过阈值时自动转为抽样采集。
- 使用异步采集模式避免阻塞业务查询。

3. 示例工作流

-- 步骤1：关闭默认自动全量采集
ADMIN SET CONFIG ("enable_collect_full_statistic" = "false");-- 步骤2：创建自定义自动采集任务（每天凌晨2点采集orders表的(A,B)列）
CREATE ANALYZE orders 
PROPERTIES ("frequency" = "DAILY","start_time" = "02:00:00","columns" = "A,B"
);-- 步骤3：手动触发紧急采集
ANALYZE TABLE orders COLLECT STATS FOR COLUMNS (A,B) ASYNC;-- 步骤4：查看联合统计信息
SELECT * FROM _statistics_.multi_column_statistics 
WHERE table_id = 123 AND column_names = '["A","B"]';