HBase Region
HBase Region 核心概念
定义与作用
Region 是 HBase 中数据存储与分布式管理的最小单元(换句话即:Region是HBase数据管理的基本单位),每个表按 RowKey 范围 水平划分为多个 Region,负责存储部分数据及处理读写请求。
每个 Region 对应一个或多个列族(Column Family),内部由 Store(存储列族数据)、MemStore(写缓存)和 HFile(持久化文件)组成。
HBase层级结构如下:
生命周期管理
Region 分裂:当 Region 大小超过阈值(默认 10GB),自动分裂为两个子 Region,保持数据分布均衡。
Region 合并:通过合并相邻 Region 减少小文件,优化存储与查询性能。
负载均衡:通过 hbase.balance.period 策略动态调整 Region 在 RegionServer 间的分布,避免资源倾斜。
HBase使用了RegionSever来管理region
一个表中可以包含一个或多个Region。
每个Region只能被一个RS(RegionServer)提供服务,RS可以同时服务多个Region,来自不同RS上的Region组合成表格的整体逻辑视图。
regionServer 其实是hbase的服务,部署在一台物理服务器上,region有一点像关系型数据的分区,数据存放在region中,当然region下面还有很多结构,确切来说数据存放在memstore和hfil