当前位置：首页 > news >正文

RCFile数据读取流程

news 2025/10/15 5:48:46

以下通过一个具体的例子，详细说明 RCfile 的同步标记如何帮助跳过无关的数据行组（Row Group），从而提升查询效率：

假设有一个 用户行为日志表，存储在 RCfile 中，包含以下字段：

| user_id (BIGINT) | action_time (TIMESTAMP) | action_type (STRING) |

执行如下查询，筛选 2023-10-01 当天的用户行为：

SELECT user_id 
FROM user_logs 
WHERE action_time BETWEEN '2023-10-01 00:00:00' AND '2023-10-01 23:59:59';

假设目标文件 user_logs_202310.rcfile 包含 3 个行组，每个行组的元数据如下：

行组 ID	数据行数	action_time 最小值	action_time 最大值	同步标记位置
RG1	10,000	2023-10-01 08:00:00	2023-10-01 12:00:00	0xABCD1234
RG2	10,000	2023-10-01 18:00:00	2023-10-02 06:00:00	0xEFGH5678
RG3	10,000	2023-10-02 08:00:00	2023-10-02 20:00:00	0xIJKL9012

定位文件起始位置
- 查询引擎（如 Hive）首先读取文件头，发现第一个同步标记 0xABCD1234，确认行组 RG1 的起始位置。
检查行组元数据
- 读取 RG1 的元数据头，发现其时间范围为 2023-10-01 08:00:00 ~ 2023-10-01 12:00:00，完全包含在查询条件内。
- 决策：需要读取 RG1 的所有数据。
跳过无关行组
- 引擎通过同步标记 0xEFGH5678 定位到 RG2 的起始位置。
- 检查 RG2 的元数据头，发现其时间范围为 2023-10-01 18:00:00 ~ 2023-10-02 06:00:00，部分超出查询条件。
- 决策：仅读取 RG2 中时间在 2023-10-01 当天的数据。
完全跳过无关行组
- 引擎通过同步标记 0xIJKL9012 定位到 RG3 的起始位置。
- 检查 RG3 的元数据头，发现其时间范围为 2023-10-02 08:00:00 ~ 2023-10-02 20:00:00，完全不满足查询条件。
- 决策：直接跳过整个 RG3 行组，无需读取其数据块。

同步标记的快速定位
- 同步标记是唯一的固定字节序列，引擎通过扫描这些标记，无需解析实际数据内容即可找到行组边界。
- 跳过行组时，引擎直接计算下一同步标记的偏移量（根据当前行组大小），大幅减少 I/O 操作。
元数据头的过滤作用
- 每个行组的元数据头记录了该行组内数据的统计信息（如时间范围）。
- 若行组的元数据头显示其数据完全不符合查询条件，引擎直接跳过该行组。
减少数据读取量
- 在上述例子中：
  - RG1：完全读取（10,000 行）
  - RG2：部分读取（假设 5,000 行满足条件）
  - RG3：完全跳过（0 行读取）
- 总读取行数：15,000 行（仅需处理 50% 的数据）。