Hadoop容错机制详解
Hadoop NameNode 高可用(High Availability, HA)通过 Active-Standby 架构 和 自动故障切换(Failover) 解决单点故障问题,确保 NameNode 服务持续可用。以下是其详细过程:
1. HA 核心组件
- Active NameNode:处理所有客户端请求(元数据读写、块位置查询等)。
- Standby NameNode:实时同步 Active NameNode 的元数据,随时准备接管服务。
- JournalNode 集群(JNs):轻量级分布式服务(通常 3 或 5 个节点),负责存储和管理 EditLog(元数据操作日志)。
- ZooKeeper 集群(ZK):协调故障检测与切换,管理 NameNode 的 Active 状态。
- 共享存储(Shared Storage):通过 JournalNode 实现 EditLog 的共享(替代传统 HA 中的 NFS)。
2. HA 工作流程
(1) 元数据同步(EditLog 共享)
- 写入 EditLog
Active NameNode 将元数据操作(如创建、删除文件)写入 EditLog,并同步到多个 JournalNode(需大多数节点确认,例如 3 节点中至少 2 个确认)。 - Standby 读取 EditLog
Standby NameNode 定期从 JournalNode 读取最新的 EditLog,并合并到本地的 FsImage(文件系统镜像),保持与 Active 的元数据一致。
(2) 故障检测与切换
- 心跳机制
Active NameNode 定期通过 ZooKeeper 发送心跳信号(称为 ZKFC,ZooKeeper Failover Controller)。 - 故障判定
若 ZKFC 在超时时间内未收到心跳(默认 5 秒),ZooKeeper 认为 Active NameNode 失效,触发自动故障切换。 - 选举新 Active
ZooKeeper 通过分布式锁机制选举新的 Active NameNode:- Standby NameNode 检查当前是否持有锁(即是否有权成为 Active)。
- 若原 Active 失效,Standby 获取锁并升级为 Active。
- 新 Active 接管服务,更新元数据并通知 DataNode。
(3) DataNode 块报告
- DataNode 同时向 Active 和 Standby NameNode 发送块位置报告(Block Report),确保两者均掌握数据块分布。
- 在故障切换后,新 Active NameNode 无需等待 DataNode 重新上报,可直接处理请求。
3. 自动故障切换(Failover)的详细步骤
- 检测故障
- ZooKeeper 发现 Active NameNode 心跳超时。
- ZKFC 触发健康检查(如 NameNode 进程是否存活、网络是否可达)。
- 隔离原 Active(Fencing)
- 防止原 Active NameNode 恢复后产生“脑裂”(Split Brain),强制终止其进程或断开网络。
- 常见隔离机制:SSH 远程杀死进程、调用脚本禁用网络端口。
- 元数据状态确认
- 确保 Standby NameNode 的元数据是最新的(通过 JournalNode 确认 EditLog 完全同步)。
- 切换为 Active
- Standby NameNode 升级为 Active,接管客户端请求。
- 更新 ZooKeeper 中的 Active 状态标识。
- 客户端重定向
- 客户端通过重试机制或配置的 HA 代理(如 HDFS HA 的逻辑 URI)自动连接到新 Active NameNode。
4. 手动切换(Graceful Failover)
- 运维人员可通过命令手动触发 Active/Standby 切换(如集群维护场景):
hdfs haadmin -transitionToActive --forcemanual <namenode_id>
- 手动切换前需确保元数据已完全同步。
5. 关键配置
- hdfs-site.xml
<!-- 启用 HA --> <property><name>dfs.nameservices</name><value>mycluster</value> </property> <!-- 定义 NameNode ID --> <property><name>dfs.ha.namenodes.mycluster</name><value>nn1,nn2</value> </property> <!-- JournalNode 地址 --> <property><name>dfs.namenode.shared.edits.dir</name><value>qjournal://jn1:8485;jn2:8485;jn3:8485/mycluster</value> </property> <!-- 故障切换代理类 --> <property><name>dfs.client.failover.proxy.provider.mycluster</name><value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property>
- core-site.xml
<!-- 使用逻辑 URI 访问 HDFS(隐藏物理 NameNode 地址) --> <property><name>fs.defaultFS</name><value>hdfs://mycluster</value> </property>
6. 注意事项
- JournalNode 高可用:至少部署 3 个 JournalNode(容忍 1 个节点故障)或 5 个(容忍 2 个故障)。
- 隔离机制(Fencing):必须配置可靠的隔离策略,避免脑裂问题。
- 监控与告警:监控 ZooKeeper、JournalNode 和 NameNode 的健康状态,及时发现潜在故障。
7. HA 架构的优势
- 零停机时间:故障切换通常在 数十秒内 完成,客户端无感知。
- 数据一致性:通过 JournalNode 保障元数据的强一致性。
- 无缝扩展:支持滚动升级(Rolling Upgrade)和在线维护。
NameNode HA 是 Hadoop 2.x 及后续版本的核心特性,显著提升了 HDFS 的可靠性,适用于对服务连续性要求严苛的生产环境。