当前位置：首页 > news >正文

ClickHouse 分区机制详解：规则、合并与实践指南

news 2025/7/14 6:57:15

在 ClickHouse 中，分区是提升查询性能的核心机制之一，但它的设计逻辑与传统 OLAP 引擎存在显著差异。本文将从分区规则、目录命名、合并过程到开发实践，全面解析 ClickHouse 的分区机制，帮助你合理设计分区策略，避免常见陷阱。

ClickHouse 的分区功能仅由 MergeTree 家族表引擎支持，其本质是对本地数据的纵向切分——通过将数据按规则划分为独立的分区目录，实现查询时的分区过滤，减少无效数据扫描。

需要特别注意的是：

本文将围绕以下四个核心点展开：分区规则、分区目录命名、合并过程、开发实践注意事项。

分区的核心是分区键（PARTITION BY 表达式），它决定了数据如何划分到不同分区，而每个分区的唯一标识是分区 ID。分区键支持单个或多个字段（通过元组组合），分区 ID 的生成逻辑根据字段类型分为四类：

若未通过 PARTITION BY 声明分区，则默认分区名为 all，所有数据均写入该分区。

当分区键为整数（兼容 UInt64、有符号/无符号整数），且无法转换为 YYYYMMDD 格式的日期时，分区 ID 直接为整数字符串。
例如：PARTITION BY age，当 age=18 时，分区 ID 为 18。

若分区键是时间类型（如 Date、DateTime），或可转换为 YYYYMMDD 格式的整数（如 20240101），则分区 ID 为对应的时间格式字符串。
例如：

对于字符串（String、Varchar）、浮点型（Float）等既非整数也非时间的类型，分区 ID 为其 128 位哈希值。
例如：PARTITION BY username，若 username="clickhouse"，分区 ID 可能为 a1b2c3...（哈希结果）。

若通过元组指定多个分区字段（如 PARTITION BY (age, create_time)），则分区 ID 为各字段生成的 ID 以 - 拼接。
例如：age=18 且 create_time=2024-01-18 时，分区 ID 为 18-20240118。

在 ClickHouse 的数据存储目录中，分区目录的命名并非直接使用分区 ID，而是包含额外信息，格式为：
PartitionId_MinBlockNum_MaxBlockNum_Level

以 20240118_1_1_0 为例，各部分含义如下：

PartitionId：即上文生成的分区 ID（如 20240118）。
MinBlockNum/MaxBlockNum：数据块编号范围。BlockNum 是单表全局自增的整数（初始为 1），新写入数据时生成新编号。新增分区目录时，MinBlockNum 与 MaxBlockNum 相等（如 1_1）；合并后会更新为合并前的最小/最大编号。
Level：合并层级，记录分区内的合并次数。初始值为 0，每合并一次累加 1（仅对当前分区有效，非全局唯一）。

MergeTree 引擎的分区机制体现了 LSM（Log-Structured Merge Tree）的设计思想——数据写入时先生成小文件，后台再异步合并，以优化写入性能并减少碎片。

写入即生成新目录：每次写入数据（如 INSERT），即使属于同一分区，也会生成新的分区目录。例如，两次写入 20240118 分区，会生成 20240118_1_1_0 和 20240118_2_2_0。
后台自动合并：写入后 10~15 分钟，ClickHouse 会触发后台任务，将同一分区的多个目录合并为一个新目录。也可通过 OPTIMIZE TABLE table_name PARTITION partition_id 手动触发。
合并后目录命名规则：
- MinBlockNum = 合并前所有目录的最小 MinBlockNum；
- MaxBlockNum = 合并前所有目录的最大 MaxBlockNum；
- Level = 合并前所有目录的最大 Level + 1。
例如，合并 20240118_1_1_0（Level=0）和 20240118_2_2_0（Level=0）后，新目录为 20240118_1_2_1。
旧目录的清理：合并后旧目录不会立即删除，默认保留 8 分钟（可通过 merge_tree.max_sleep_time_before_drop_old_parts 调整），以应对合并过程中的查询需求。