当前位置: 首页 > news >正文

IoTDB 节点宕机后集群恢复

问题及现象

  • 现象1:IoTDB 集群一台电脑硬盘坏了,换了新硬盘迁移数据只能用 load 么?是不是直接新增节点就行了?
  • 现象2:这个错误是什么原因引起的?集群有个节点宕机,上线之后就报错:
insertByGroup - Meet error when async insert! org.apache.iotdb.rpc.StatementExecutionException: 606: The write is rejected because the wal directory size has reached the threshold 53687091200 bytes. You may need to adjust the flush policy of the storage storageengine or the IoTConsensus synchronization parameter
  • 现象3:请教个问题,双副本集群中,一个节点宕机后,WAL 会持续增加,如果机器无法恢复,需要怎么解决?
  • 现象4:如果 3C3D 的模式下,设置了三个元数据副本,两个数据副本,其中一个节点有问题后会影响另外两个节点的工作么?如果移除那个有问题的节点后会存在数据丢失么?看官方文档说会把移除节点的数据自动同步到剩余两个节点中,又在文档中说不能少于元数据 3 副本的节点数运行,那三个节点的集群岂不是照样一个节点都不能挂?
  • 现象5:如果老节点挂掉了,是不是拿不到之前节点上的数据了?如果是单副本,那数据是取不到吗?

方法

  • 单机版节点宕机:在其他主机上配置新节点,重新启动,并将旧节点的 /data 目录 load 进新节点。
  • 集群内某个节点宕机之后:
  •  节点能启动:手动启动该节点,启动后如果依然报下面的错,V1.1.0 及之前的版本先升级到最新版本,尝试调大 WAL 文件总大小配置 iot_consensus_throttle_threshold_in_byte 并重启该 DataNode 服务。
    
The write is rejected because the wal directory size has reached the threshold 53687091200 bytes. You may need to adjust the flush policy of the storage storageengine or the IoTConsensus synchronization parameter`
  •  节点无法启动:在其他主机上配置一个新的节点,指向该集群,启动该节点加入集群。CLI 连接上该集群其他 DataNode,移除掉已经宕机的节点。
    

原因

  • 无法移除 DataNode 的情况:当集群只有 3 个 DataNode 且每个有 3 副本时,无法移除某个 DataNode,系统不允许分片的副本数小于配置值。建议先增加一个 DataNode,达到 4 个节点后再移除出问题的节点,因为如果 DataNode 数量不足,系统不支持主动移除节点,这样可能导致副本数少于配置值。但如果是被动宕机,集群仍能正常工作。
  • 拒绝写入的错误原因:如果某个节点长时间宕机,数据副本会一直无法同步,直到达到一定的阈值(默认 50G)后,保护机制会启动。重启后,由于待同步的 WAL 文件过多,通过增大 WAL 总文件大小配置,可以暂时避免阻塞节点间的数据同步。当前版本在节点长时间宕机的情况下,仍然需要通过恢复或移除节点的方式来解决 WAL 堆积问题。未来版本会优化这方面的设计,避免 WAL 堆积再次发生。

相关文章:

  • mysql的索引
  • C#+UDP接收数据,并将数据保存到redis,定时同步到数据库Sql Server中
  • vue3 项目如何接入 AI 大模型
  • P1878 舞蹈课(详解)c++
  • VUE环境搭建
  • k8s向容器内传文件与下载文件
  • lightning.pytorch.callbacks内置的Callbacks介绍
  • Nginx 上安装 SSL 证书并启用 HTTPS 访问
  • cpu温度多少正常?cpu温度过高怎么办
  • 7. Docker 容器数据卷的使用(超详细的讲解说明)
  • 编译安装vsftpd后,虚拟用户模式下登录提示:“530 Login incorrect.“
  • 如果维护了多种语言版本的文本对应关系,另一种语言只需要将对应文本填入对应位置即可,这种情况应该如何实现自动填入
  • 【verilog】函数clogb2的解读
  • 【python】http.server内置库构建临时文件服务
  • C语言蓝桥杯1003: [编程入门]密码破译
  • 【第4章:循环神经网络(RNN)与长短时记忆网络(LSTM)——4.2 LSTM的引入与解决长期依赖问题的方法】
  • 第一章嵌入式系统概论考点05数字(电子)文本
  • 计算机网络-八股-学习摘要
  • 【学术投稿】第五届计算机网络安全与软件工程(CNSSE 2025)
  • 一天急速通关SpringMVC
  • 专家:家长要以身作则,孩子是模仿者学习者有时也是评判者
  • 思想史家陈谷嘉逝世,曾为岳麓书院当代复兴奠定重要基础
  • 在古老的意大利科莫歌剧院,廖昌永唱响16首中国艺术歌曲
  • 法学联合书单|法庭上的妇女
  • 视频|王弘治:王太后,“先天宫斗圣体”?
  • 中国至越南河内国际道路运输线路正式开通