当前位置：首页 > news >正文

Hadoop集群异常：两个NameNode全部为StandBy状态

news 来源：原创 2025/6/29 8:52:54

今天启动Yarn的ResourceManager出错了，报错说是namenode状态错误：

Operation category READ is not supported in state standby.

用命令查看：

[root@dmp-mng-svr1 zookeeper-3.5.10]# hdfs haadmin -getServiceState nn1
standby
[root@dmp-mng-svr1 zookeeper-3.5.10]# hdfs haadmin -getServiceState nn2
standby

什么？两个namenode都是standby，都不想干活了吗？
网上查了一下，说是强制转其中一台为active，

hdfs haadmin -transitionToActive --forcemanual nn1
或者
hdfs haadmin -failover nn1 nn2

失败了
还有一说是重置zkfc数据：

hdfs zkfc -formatZK

但还是不行。是不是zookeeper出问题了？我早上重新生成了zookeeper的krb5证书，可能是不行了吧，尝试重启zookeeper，果真不能启动了，于是删除了zookeeper的数据目录，重建myid文件
再重新启动，又报错：

java.io.IOException: No snapshot found, but there are log entries. Something is broken!

重置zk试试：

./bin/zkServer-initialize.sh --force

然后再重建myid文件。这下zk启动成功了。
再启动journalnode，成功。
启动namenode，失败。于是格式化：

主：sudo -u hdfs /opt/datasophon/hadoop-3.3.3/bin/hdfs namenode -format
从：sudo -u hdfs /opt/datasophon/hadoop-3.3.3/bin/hdfs namenode -bootstrapStandby
/opt/datasophon/hadoop-3.3.3/bin/hdfs zkfc -formatZK

这下终于启动成功了。