当前位置: 首页 > news >正文

Hadoop集群异常:两个NameNode全部为StandBy状态

今天启动Yarn的ResourceManager出错了,报错说是namenode状态错误:

Operation category READ is not supported in state standby.

用命令查看:

[root@dmp-mng-svr1 zookeeper-3.5.10]# hdfs haadmin -getServiceState nn1
standby
[root@dmp-mng-svr1 zookeeper-3.5.10]# hdfs haadmin -getServiceState nn2
standby

什么?两个namenode都是standby,都不想干活了吗?
网上查了一下,说是强制转其中一台为active,

hdfs haadmin -transitionToActive --forcemanual nn1
或者
hdfs haadmin -failover nn1 nn2

失败了
还有一说是重置zkfc数据:

hdfs zkfc -formatZK 

但还是不行。是不是zookeeper出问题了?我早上重新生成了zookeeper的krb5证书,可能是不行了吧,尝试重启zookeeper,果真不能启动了,于是删除了zookeeper的数据目录,重建myid文件
再重新启动,又报错:

java.io.IOException: No snapshot found, but there are log entries. Something is broken!

重置zk试试:

./bin/zkServer-initialize.sh --force

然后再重建myid文件。这下zk启动成功了。
再启动journalnode,成功。
启动namenode,失败。于是格式化:

主:sudo -u hdfs /opt/datasophon/hadoop-3.3.3/bin/hdfs namenode -format
从:sudo -u hdfs /opt/datasophon/hadoop-3.3.3/bin/hdfs namenode -bootstrapStandby
/opt/datasophon/hadoop-3.3.3/bin/hdfs zkfc -formatZK

这下终于启动成功了。

相关文章:

  • uniapp image引用本地图片不显示问题
  • Centos 8设置固定IP
  • AlphaGenome:基因组学领域的人工智能革命
  • 【C++进阶】--- 继承
  • pytest 中的重试机制
  • 深入详解:决策树算法的概念、原理、实现与应用场景
  • 数据库(MYsql)
  • 可编程逻辑器件的演进与对比分析
  • Flutter基础(Future和async/await)
  • 地平线静态目标检测 MapTR 参考算法 - V2.0
  • 创客匠人解析:身心灵赛道创始人 IP 打造核心策略
  • 《剖开WebAssembly 2.0:C++/Rust内存管理困局与破局》
  • 网关ARP防护的措施
  • 实变与泛函题解-心得笔记【15】
  • 【软考高项论文】论信息系统项目的沟通管理
  • 质量管理重要理论知识和质量管理工具
  • glog使用详解和基本使用示例
  • Django项目创建与基础功能实现指南
  • 前端React和Vue框架的区别
  • Redis集群全流程实战指南