当前位置：首页 > news >正文

【生产实践】DolphinScheduler集群MySQL数据源切换终极指南｜附生产环境避坑手册

news 来源：原创 2025/6/13 6:45:52

太长不看版：

使用脚本进行重新配置

vim /app/dolphinscheduler/conf/evn/dolphinscheduler-env.sh
## 在最后添加如下内容
export SPRING_DATASOURCE_URL="jdbc:mysql://<mysql服务器IP>:3306/<数据库实例名>?characterEncoding=UTF-8&allowMultiQueries=true"
export SPRING_DATASOURCE_USERNAME="<数据库用户名>"
export SPRING_DATASOURCE_PASSWORD="<数据库密码>"

重启服务

sh /app/dolphinscheduler/bin/stop-all.sh
sleep 5
sh /app/dolphinscheduler/bin/start-all.sh

然后据说重启以后就会自动读这个配置进行数据库重置

检查配置文件

cat /app/dolphinscheduler/conf/datasource.properties

完整版

一、引言：为什么数据库切换是大数据运维的"高危手术"？

在企业级大数据平台中，DolphinScheduler作为分布式任务调度系统，承载着核心业务流程的调度中枢作用。而数据库作为其数据存储核心，一旦需要进行数据源切换，若操作不当可能导致：

任务调度中断，影响整个数据链路运行
配置不一致引发集群脑裂
历史任务数据丢失或错乱

真实案例：某互联网公司在未充分准备的情况下切换DolphinScheduler数据库，导致3小时任务积压，直接影响当日数据报表生成，损失超50万元。本文将从0到1拆解完整切换流程，帮助读者规避生产环境风险。

二、切换前的黄金准备：三线备份与环境校验

1. 数据库全量备份（含二进制日志）

# 进入备份目录（建议独立磁盘分区）
cd /data/mysql_backup# 执行带二进制日志的增量备份（关键！支持时间点恢复）
mysqldump -u root -p --single-transaction --quick --master-data=2 \
--triggers --routines dolphinscheduler > dolphinscheduler_full_$(date +%F).sql# 同时备份二进制日志（用于增量恢复）
cp /var/lib/mysql/mysql-bin.* .# 验证备份完整性（生产环境必须执行）
mysqlcheck -u root -p --check dolphinscheduler < dolphinscheduler_full_2023-10-01.sql

2. 新数据库环境搭建（安全优先）

-- 创建数据库（指定字符集避免乱码）
CREATE DATABASE dolphinscheduler 
CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;-- 创建专用用户（限制来源IP，生产环境禁止%）
CREATE USER 'ds_user'@'192.168.1.%' 
IDENTIFIED BY 'YourStrongPassword!';-- 授予最小权限（避免过度授权）
GRANT SELECT,INSERT,UPDATE,DELETE,CREATE,DROP,ALTER,
REFERENCES,INDEX on dolphinscheduler.* TO 'ds_user'@'192.168.1.%';
FLUSH PRIVILEGES;

3. 集群环境深度校验

# 1. 网络连通性测试（全节点）
for node in master1 worker2 api-gateway; dossh $node "ping -c 5 new-mysql-ip && telnet new-mysql-ip 3306"
done# 2. 配置一致性检查（关键！）
for node in $(cat conf/masters); dossh $node "grep -E 'SPRING_DATASOURCE_(URL|USERNAME|PASSWORD)' conf/dolphinscheduler-env.sh"
done | sort -u | awk 'NR>1{print "配置不一致节点:" $0; exit 1}'

三、核心操作：15分钟完成集群配置切换

1. 动态修改配置文件（自动化脚本）

#!/bin/bash
# 数据库切换自动化脚本 v1.0
NEW_DB_INFO="jdbc:mysql://new-mysql-ip:3306/dolphinscheduler?useSSL=false&serverTimezone=Asia/Shanghai&allowPublicKeyRetrieval=true"
NEW_USER="ds_user"
NEW_PASS="YourStrongPassword!"# 1. 备份原配置（回滚基础）
for node in $(cat conf/masters); dossh $node "cp conf/dolphinscheduler-env.sh conf/dolphinscheduler-env.sh.bak_$(date +%F)"
done# 2. 批量修改配置（使用sed正则匹配）
for node in $(cat conf/masters) $(cat conf/workers) $(cat conf/apis); dossh $node "sed -i 's|SPRING_DATASOURCE_URL=.*|SPRING_DATASOURCE_URL=\"${NEW_DB_INFO}\"|' conf/dolphinscheduler-env.sh"ssh $node "sed -i 's|SPRING_DATASOURCE_USERNAME=.*|SPRING_DATASOURCE_USERNAME=\"${NEW_USER}\"|' conf/dolphinscheduler-env.sh"ssh $node "sed -i 's|SPRING_DATASOURCE_PASSWORD=.*|SPRING_DATASOURCE_PASSWORD=\"${NEW_PASS}\"|' conf/dolphinscheduler-env.sh"
done

2. 集群优雅启停（严格顺序）

# 1. 停止服务（先Worker后Master，避免任务积压）
./bin/stop-workers.sh
./bin/stop-masters.sh
./bin/stop-api.sh# 2. 确认无残留进程（生产环境必查）
for process in MasterServer WorkerServer ApiApplication; doif ps -ef | grep -v grep | grep $process; thenecho "警告: $process 进程未完全停止，强制kill..."ps -ef | grep -v grep | grep $process | awk '{print $2}' | xargs kill -9fi
done# 3. 启动服务（先Master后Worker，确保注册中心先启动）
./bin/start-masters.sh
./bin/start-workers.sh
./bin/start-api.sh

四、生产环境验证：从日志到业务的全链路校验

1. 三级日志深度检查

# 1. 启动日志检查（关键参数）
grep -E 'DataSource|MySQL|Connection' logs/* | grep -v 'WARN|ERROR'# 正常日志示例（必须包含以下内容）
# INFO  [main] o.s.j.d.DriverManagerDataSource : Loaded JDBC driver: com.mysql.cj.jdbc.Driver
# INFO  [main] c.a.d.datasource.DsDataSource : DataSource init success# 2. 错误日志排查（定位关键异常）
grep -E 'ERROR|FATAL|Exception|500' logs/* | grep -E 'MySQL|Connection'# 常见错误处理：
# java.sql.SQLTimeoutException: 调整URL参数 &connectTimeout=30000&socketTimeout=60000
# Access denied for user: 检查新数据库用户权限

2. 业务功能验证矩阵

验证项	操作步骤	预期结果	异常处理
基础登录	访问WebUI并登录	5秒内响应，无数据库错误	检查Nginx日志与API节点连接日志
历史任务查询	查看近7天任务列表	数据完整显示，无加载异常	对比新旧库数据一致性
任务重跑	选择失败任务重新执行	执行成功，状态更新正常	检查调度日志与数据库事务
并发调度	提交100个测试任务	并发执行无阻塞，成功率100%	监控数据库连接数与QPS

五、生产环境避坑指南：从设计到运维的全流程优化

1. 高可用架构设计（避免单点）

# 新数据库建议配置主从复制（dolphinscheduler-env.sh配置）
export SPRING_DATASOURCE_URL="jdbc:mysql://db-master:3306,dbl-slave:3306/dolphinscheduler?useSSL=false&failOverReadOnly=false&autoReconnect=true&loadBalance=true"
export SPRING_DATASOURCE_HIKARI_MAXCONNECTION=200  # 调整连接池参数

2. 切换失败应急回滚（5分钟恢复）

#!/bin/bash
# 数据库切换回滚脚本
ORIGINAL_DB_INFO="jdbc:mysql://old-mysql-ip:3306/dolphinscheduler?useSSL=false"
ORIGINAL_USER="old_ds_user"
ORIGINAL_PASS="OldPassword!"# 1. 停止所有服务
./bin/stop-all.sh# 2. 恢复原配置（从备份文件）
for node in $(cat conf/masters); dossh $node "mv conf/dolphinscheduler-env.sh.bak_2023-10-01 conf/dolphinscheduler-env.sh"
done# 3. 增量恢复数据（基于二进制日志）
mysql -u root -p dolphinscheduler < dolphinscheduler_full_2023-10-01.sql
mysqlbinlog --start-datetime="2023-10-01 08:00:00" --stop-datetime="2023-10-01 09:00:00" mysql-bin.000001 | mysql -u root -p

3. 性能优化黄金配置

# 新数据库my.cnf关键参数（8核16G服务器示例）
[mysqld]
innodb_buffer_pool_size = 8G         # 关键！建议为物理内存的50-70%
innodb_log_file_size = 256M
innodb_flush_log_at_trx_commit = 2   # 性能与安全性平衡
sync_binlog = 100                    # 减少IO操作
max_connections = 500                # 根据DolphinScheduler节点数调整