当前位置: 首页 > news >正文

TDengine 集群部署及启动、扩容、缩容常见问题与解决方案

一、部署阶段常见问题及解决方案

1. docker entrypoint.sh 相关 bug
问题描述 :在特定 docker-compose.yaml 文件下无法自动建立集群,原因是 Docker 镜像 entrypoint 文件 /usr/bin/entrypoint.sh 执行代码无法抓取出 FIRST_EP 信息(TDengine 3.3.6.3 版本)。
解决方案 :需检查 taosd -C 执行结果是否正常获取 FIRST_EP,并确保 taos.cfg 中 firstEp 配置项正确指向集群首个节点的 fqdn:port,必要时手动调整脚本逻辑以正确解析 FIRST_EP

2. 本地执行 taos 报错
问题描述 :本地执行 taos 客户端时报错,预估是 epSet 中的 EP 的 fqdn 在本地无法解析。
解决方案 :

  • 确保所有节点(包括客户端)的 /etc/hosts 文件或 DNS 服务已正确配置集群所有节点的 fqdn 与 IP 映射;
  • 避免使用 localhost 或 IP 地址作为 fqdn(开发环境除外),建议使用统一网段内可解析的完整域名;
  • 若为 Docker 环境,可通过 docker exec -it <容器名> bash 进入容器执行 taos 命令,确保网络互通。

3. 奇怪的 SQL 报错(时间戳列无序)
问题描述 :执行含 JOIN 条件的 SQL 时报错,原因为 TDengine 要求 JOIN 条件的时间戳列必须有序。
解决方案 :在 SQL 语句中添加 ORDER BY ts 确保时间戳列有序。

4. 单机部署内存不足
问题描述 :单机部署集群时,查询因内存不足报错。原因是每个节点默认预留 20% 内存(3 节点集群需预留 60%),导致单机资源紧张。
解决方案 :通过修改 taos.cfg 中的 minAvailableMem 和 maxSessions 参数调整内存预留策略,降低单机资源占用。

5. 安装后连接报错(Unable to resolve FQDN)
问题描述 :客户端连接 TDengine 时提示无法解析 FQDN。
解决方案 :

  • 服务端:每个节点执行 hostname -f 获取完整域名,配置到 taos.cfg 的 fqdn 参数;
  • 客户端 / 其他节点:通过 hosts 文件或 DNS 服务配置所有集群节点(含仲裁节点)的 fqdn 与 IP 映射;
  • 避免使用 localhost 或 IP 地址作为 fqdn(仅开发环境允许)。

6. taosd 启动异常(宕机恢复、Vnode 失败、crash)
问题描述 :节点宕机恢复后内存占用过高、Vnode 恢复失败或启动时因磁盘满导致 crash。
解决方案 :

  • 检查磁盘空间(df -h),清理 /var/lib/taos 或 dataDir 目录冗余文件;
  • 若 Vnode 恢复失败,查看 taosd 日志(默认路径 /var/log/taos/taosd.log)定位具体错误;
  • 内存过高时,调整 taos.cfg 中 maxSessions 或 cacheBlockSize 限制会话和缓存大小。

7. 集群连接验证失败(show cluster alive 失败)
问题描述 :执行 show cluster alive 提示连接失败或集群组建失败。
解决方案 :检查以下配置:

  • 端口:确保所有节点开放 6030-6042(TCP/UDP);
  • 网络:各节点间 ping fqdn 需通;
  • 时钟:节点间时间差不超过 1 秒(通过 ntp 同步);
  • 配置:taos.cfg 中 statusInterval(状态上报间隔)、timezone(时区)等参数需一致

二、扩容阶段常见问题及解决方案

1. 新节点加入后状态为 Offline
问题描述 :执行 CREATE DNODE '<fqdn:port>' 后,新节点在 SHOW DNODES 中显示 Offline
解决方案 :

  • 检查节点状态 :确认新节点 taosd 已启动(systemctl status taosd)、防火墙关闭(ufw disable 或 firewall-cmd --add-port=6030-6042/tcp --permanent);
  • 清理数据目录 :若节点曾部署过 TDengine,需清空 /var/lib/taos 目录(rm -rf /var/lib/taos/*);
  • 验证域名解析 :所有节点(含新节点)的 /etc/hosts 或 DNS 需包含所有集群节点(含仲裁节点)的 fqdn 与 IP 映射;
  • 检查配置参数 :新节点 taos.cfg 中 firstEp 需指向集群已有节点的 fqdn:portfqdn 需为自身完整域名。

三、缩容阶段常见问题及解决方案

1. 缩容操作不生效或数据丢失
问题描述 :直接停止 taosd 进程无法完成缩容,或缩容后数据未迁移导致丢失。
解决方案 :

  • 规范缩容步骤 :
    1. 执行 SHOW DNODES 确认待删除节点状态为 Ready
    2. 执行 DROP DNODE '<fqdn:port>' 或 DROP DNODE <dnode_id>
    3. 等待集群自动迁移该节点数据(时间取决于数据量及网络 / 磁盘性能);
    4. 数据迁移完成后,执行 SHOW DNODES 确认节点已移除;
    5. 停止该节点 taosd 服务(systemctl stop taosd)。
  • 注意事项 :
    • 缩容前确保剩余节点数 ≥ 副本数(如三副本集群至少保留 2 节点);
    • 缩容后节点若需重新加入集群,需清空 /var/lib/taos 目录、重新配置 taos.cfg,并执行 CREATE DNODE 重新加入。

四、总结


TDengine 集群部署、扩容、缩容的核心在于 网络配置(FQDN 解析、端口互通) 、 参数一致性(firstEpfqdn、时区等) 及 操作规范性(数据迁移、节点状态检查) 。遇到问题时,优先通过日志(/var/log/taos)和 SHOW DNODES 等命令定位。

http://www.dtcms.com/a/271317.html

相关文章:

  • 自建ELK vs 云商日志服务:成本对比分析
  • Apache Tomcat SessionExample 漏洞分析与防范
  • AMIS全栈低代码开发
  • 【NVIDIA-H100】基于 nvidia-smi 数据H100 GPU 功耗异常深度分析与解决方案
  • PiscTrace应用:从 YOLO-Pose 到深蹲与引体向上计数:实时健身动作分析与实现
  • 语音大模型速览(二)- cosyvoice
  • Flink-1.19.0源码详解-番外补充4-JobGraph图
  • Ubuntu 下 MySql 使用
  • qt-C++笔记之布局管理`space` 和 `margin`的区别
  • SQL注入与防御-第六章-3:利用操作系统--巩固访问
  • kbmMemTable Pro 7.82 Delphi 11 源代码
  • Spectre(幽灵漏洞)是什么?
  • Python-FAQ-单例模式
  • MyBatis之数据操作增删改查基础全解
  • Java常用设计模式大全
  • Kubernetes 存储入门
  • HTTP请求走私漏洞
  • 【Python】FastApi
  • P1009 [NOIP 1998 普及组] 阶乘之和
  • HashMap中get()、put()详解
  • 代码审计-shiro漏洞分析
  • Explain关键字
  • rt thread studio 和 KEIL对于使用rt thread 的中间件和组件,哪个更方便
  • Flask3.1打造极简CMS系统
  • VsCode 接入Continue 远程调用(持续扩展 + DeepSeek R1)— 免本地算力
  • ZECN致业:科创微光,照亮技术新征程
  • 200nl2sql
  • Linux建立本地软件仓库
  • 存储服务一NFS文件存储概述
  • 解锁HTML5页面生命周期API:前端开发的新视角