当前位置：首页 > news >正文

【Doris基础】Apache Doris 基本架构深度解析：从存储到查询的完整技术演进

news 来源：原创 2025/5/30 12:48:47

1 引言

2 Doris 架构全景图

2 核心组件技术解析

2.1 Frontend 层（FE）

2.2 Backend 层（BE）

3 数据存储与复制机制

3.1 存储架构演进

3.2 副本复制策略

4 查询处理全流程解析

4.1 查询生命周期

5 高可用设计

5.1 FE高可用架构

5.2 BE故障恢复

6 总结

1 引言

Apache Doris作为一款基于MPP架构的高性能实时分析数据库，凭借其极速的OLAP查询能力和简单易用的特性，在大数据领域获得了广泛应用。

2 Doris 架构全景图

三层服务架构：由Frontend(FE) 集群和Backend(BE) 集群构成计算存储分离架构，通过Broker实现外部数据源访问
元数据双环路：FE Master主导元数据变更，Follower通过Paxos协议保证强一致性，Observer提供只读扩展
数据分片机制：采用动态分片(Tablet)设计，每个分片包含多个Rowset实现增量更新
存储引擎：采用列式存储格式，支持多种索引结构（Zone Map、Bloom Filter）
计算引擎：基于LLVM的向量化执行引擎，支持Pipeline执行模式

2 核心组件技术解析

2.1 Frontend 层（FE）

角色定位：作为系统的"大脑"，承担元数据管理、查询计划生成、用户访问控制等核心职责，采用 Shared-Nothing 架构实现水平扩展

关键模块：

Catalog Manager：存储表结构、分区信息、分片位置等元数据，通过多版本控制(MVCC)保证事务一致性，采用两阶段提交协议管理Schema变更
Query Planner：将SQL解析为逻辑计划，通过CBO（基于成本的优化器）生成物理执行计划，优化策略包括：
谓词下推（Predicate Pushdown）
分区剪枝（Partition Pruning）
动态分区裁剪（Dynamic Partition Pruning）

Coordinator：负责将物理计划拆分为多个Fragment，通过Pipeline调度机制分配给BE执行，支持自适应执行，可根据集群负载动态调整并行度

2.2 Backend 层（BE）

角色定位：作为数据存储和计算的核心载体，采用混合架构设计：

存储层：基于LSM-Tree思想实现的高效列存引擎
计算层：支持Pipeline执行模式的向量化引擎

关键特性：

数据分片（Tablet）：物理存储的最小单元，每个Tablet包含多个Rowset（不可变数据块），支持自动数据均衡和副本迁移
智能索引：
Zone Map：记录每个数据块的最大/最小值，实现快速范围查询过滤
Bloom Filter：加速点查性能，减少不必要的IO
倒排索引：对高基数列建立索引，支持快速存在性判断

向量化执行：通过SIMD指令集优化，将单条记录处理升级为批量处理，典型场景性能提升3-5倍