HBase新手入门
15分钟学完HBase原理与架构分析_哔哩哔哩_bilibili
HBase是大数据存储组件,全名Hadoop Database
特性:
- 高可靠:安全、稳定
- 高性能:存储亿级数据,毫秒查询
- 面向列:按“列”存储
- 可伸缩:方便添加删除节点
专有名词对比
列族包括多个列
- 时间戳(TimeStamp):默认,与列值一一对应
- 版本:越新插入的数据,版本越高,优先展示
- 数据类型(DataType):Byte[] HBase中数据类型只有这一种
- 区域(Region):按行划分,自动分裂
逻辑存储模型:
架构分析
- 主从架构
- Master主节点(HMaster进程):管理HBase中Table和Region
- RegionServer从节点(HRegionServer进程):处理数据读写和持久化
- Zookeeper集群:协调服务,管理Master和RegionServer状态
- HDFS(Hadoop Distributed File System):底层存储分布式文件系统,负责将大文件分割成小块(通常 128MB 或 256MB),并存储在集群中的多个节点上,实现数据的冗余备份(默认 3 份副本),保证数据安全性和高可用性。
应用场景
- 数据量大
- 多版本数据
- 稀疏性数据
- 非结构化或半结构化数据