当前位置: 首页 > news >正文

华为鲲鹏 Aarch64 环境下多 Oracle 、mysql数据库汇聚到Cloudera CDP7.3操作指南

华为鲲鹏 Aarch64 环境下多 Oracle 、mysql数据库汇聚到Cloudera CDP7.3操作指南

在华为鲲鹏(Kunpeng)AArch64 架构环境下,将 Oracle 和 MySQL 数据库的数据汇聚到 Cloudera CDP 7.3 是一个典型的 异构数据集成 + 大数据平台对接 的复杂任务。

然而,这里存在一个关键的技术限制
👉 Cloudera CDP 7.3 官方仅支持 x86_64 架构,CMP(Cloud Data AI Management Platform(Aarch64版))支持 AArch64(ARM64)架构


正确的架构是:
鲲鹏服务器作为数据抽取端(Source将数据汇聚到远程的CDP 7.3 集群(Target


正确的操作指南:鲲鹏作为数据源端,CDP 7.3 作为目标平台

🎯 场景说明

  • 数据源:Oracle、MySQL(可部署在任意位置)
  • 抽取端:华为鲲鹏 AArch64 服务器(运行 ETL 工具)
  • 目标平台Cloudera CDP 7.3 集群
  • 网络要求:鲲鹏服务器能访问 Oracle、MySQL 和 CDP 集群的网络(如 Hive、HDFS、Kafka 端口)

一、整体架构设计

Text

[Oracle DB]     \

                           \

[MySQL DB]       → (JDBC) → [鲲鹏 AArch64 服务器] → (HDFS/Kafka/Hive) → [CDP 7.3 集群 ]

                          /

         [Sqoop/SeaTunnel/Kettle]

角色分工

  • 鲲鹏服务器:运行 ETL 工具,负责从 Oracle/MySQL 抽取数据,转换后发送到 CDP。
  • CDP 7.3 集群:接收数据,存储于 HDFS、Hive、Kafka 等组件中。

二、推荐方案(鲲鹏兼容 + CDP 集成)

方案 1:Apache SeaTunnel(推荐)

优势

  • 支持 ARM64 编译运行
  • 原生支持 Oracle/MySQL → Hive/HDFS/Kafka
  • 可对接 Spark/Flink on CDP
  • 高性能,适合批处理和流式同步

部署步骤(在鲲鹏 AArch64 服务器)

  • 安装 Java 8/11(OpenJDK

Bash

sudo dnf install java-1.8.0-openjdk-devel -y

  • 下载并编译 SeaTunnel(ARM64 兼容)

Bash

编辑

git clone https://github.com/apache/seatunnel.git

cd seatunnel

mvn clean package -DskipTests -Pconnector-v2

  • 配置 JDBC 驱动
    • 下载 ojdbc8.jar(Oracle)和 mysql-connector-java-8.0.33.jar
    • 放入 seatunnel-dist/target/seatunnel-2.3.4-SNAPSHOT/lib/
  • 编写配置文件 oracle-to-hive.conf

Hocon

env {

  execution.parallelism = 2

  job.mode = "BATCH"

}

source {

  Jdbc {

    url = "jdbc:oracle:thin:@//192.168.1.100:1521/ORCL"

    driver = "oracle.jdbc.driver.OracleDriver"

    user = "scott"

    password = "tiger"

    query = "SELECT id, name, salary, hire_date FROM emp WHERE hire_date > '${START_TIME}'"

    result_table_name = "src_emp"

  }

}

transform {

  # 可选:字段映射、类型转换

}

sink {

  HdfsFile {

    path = "hdfs://cdp-nn:8020/data/emp/"

    file_name = "emp"

    file_format_type = "Parquet"

    hive_meta_store_uri = "thrift://cdp-hms:9083"

    hive_database = "default"

    hive_table = "emp"

    hive_partition_fields = ["dt"]

    hive_partition_value = "${TODAY}"

  }

}

  • 提交任务

Bash

./bin/seatunnel.sh --config config/oracle-to-hive.conf

✅ 数据将写入 CDP 集群的 HDFS 和 Hive 表中。


方案 2:自研 Java + MyBatis + Hive JDBC

适用于定制化需求强的场景。

步骤:

  • 使用 Spring Boot 开发应用,连接 Oracle/MySQL。
  • 使用 HiveServer2 JDBC 或 HDFS Java API 将数据写入 CDP。
  • 打包为 Fat Jar,在鲲鹏服务器运行。

Java

// 示例:写入 Hive

String hiveUrl = "jdbc:hive2://cdp-hiveserver:10000/default";

Connection conn = DriverManager.getConnection(hiveUrl, "hive", "password");

PreparedStatement ps = conn.prepareStatement("INSERT INTO emp VALUES (?, ?, ?)");

ps.setInt(1, id);

ps.setString(2, name);

ps.setDouble(3, salary);

ps.addBatch();

ps.executeBatch();

⚠️ 需在鲲鹏服务器安装 Hadoop 客户端配置(core-site.xml, hdfs-site.xml),或使用 Hive JDBC 直接连接。


方案 3:Kettle(Pentaho Data Integration

  • 在鲲鹏服务器安装 Kettle(需 OpenJDK for AArch64)。
  • 创建 Transformation:
    • Table Input:连接 Oracle/MySQL
    • Hadoop Hive Output:配置 HiveServer2 连接信息
  • 执行并调度。

三、CDP 7.3 端准备(x86_64 集群)

确保 CDP 集群已启用以下服务:

  • HDFS:数据存储
  • Hive Metastore:元数据管理
  • HiveServer2:JDBC 写入支持
  • Kafka(可选):实时流接入

开放网络与权限

  • 开放 HiveServer2 端口(默认 10000)
  • 配置 HDFS 目录权限,允许鲲鹏服务器写入
  • 如启用 Kerberos,需配置 keytab 认证(较复杂,建议测试环境先关闭)

四、关键注意事项(鲲鹏 + CDP 组合)

问题

解决方案

CDP 不支持 AArch64

鲲鹏仅作为客户端/抽取端,CMP替代CDP

JDBC 驱动兼容性

使用纯 Java JDBC 驱动(ojdbc8.jar, mysql-connector-java),兼容 ARM64

网络延迟

确保鲲鹏与 CDP 集群间网络稳定,建议千兆以上

数据量大时性能

使用 Parquet/ORC 格式,批量写入,避免小文件

安全认证

CDP 启用 Kerberos,需在鲲鹏端配置 JAAS keytab,复杂度高


五、替代建议:使用 CDP 原生工具(反向操作)

如果您的 CDP 集群资源充足,更推荐的做法是:

在 CDP 集群内部使用 Sqoop 或 Spark 从远程 Oracle/MySQL 抽取数据。

示例:在 CDP 节点运行 Sqoop

Bash

sqoop import \

  --connect jdbc:oracle:thin:@//oracle-host:1521/ORCL \

  --username scott \

  --password-file /user/hive/pswd \

  --table EMP \

  --target-dir /data/emp \

  --hive-import \

  --hive-table emp

优点

  • 利用 CDP 内部网络,速度快
  • 无需依赖外部鲲鹏服务器
  • 管理集中

前提:CDP 节点能访问 Oracle/MySQL 数据库。


六、总结

项目

说明

正确架构

鲲鹏作为 ETL 客户端 → CDP 7.3 作为目标集群

推荐工具

Apache SeaTunnelARM64 兼容,高性能)

数据写入方式

HDFSHiveKafka

安全建议

测试环境先关闭 Kerberos,生产环境再启用


📌 最终建议流程

  • 确认 CDP 7.3 集群网络可被鲲鹏访问
  • 在鲲鹏服务器部署 SeaTunnel 或 自研 Java 应用
  • 配置 Oracle/MySQL 到 Hive/HDFS 的同步任务
  • 测试数据写入,验证 Hive 表可查
  • 使用 DolphinScheduler 或 Crontab 调度任务
http://www.dtcms.com/a/506772.html

相关文章:

  • numpy中的meshgrid()的用法
  • 【C++高阶数据结构】红黑树
  • 最近我用springBoot开发了一个二手交易管理系统,分享一下实现方式~
  • 基础开发工具(中)
  • 朝阳网站开发wordpress 访问地址修改
  • windows共享目录
  • 【完整源码+数据集+部署教程】【零售和消费品&家居用品】家庭门窗开闭状态安全监控系统源码&数据集全套:改进yolo11-DCNV2
  • 信誉楼与数图信息科技强强联合,共绘“数智赋能零售新生态”蓝图
  • 衡阳网站优化外包价格百度人工服务
  • 前端-Node.js
  • DevOps 生命周期完全指南
  • 掌握 Kubernetes 的可观测性 (Tracestore)、安全性 (OPA)、自动化 (Flagger) 和自定义指标
  • 【AI】Dify循环用法,判断jenkins构建是否完成
  • 前端与后端 Node.js 比较
  • 架起EtherCAT与PROFINET的桥梁:实现全域电机设备的安全联控
  • 软件网站建设的目的2018年怎样做淘宝客网站
  • 铁岭建设网站商城域名注册多少钱
  • 从6G到Wi-Fi 7 中国或将迎来6GHz开放窗口期
  • FreeCut:一个支持PDF自适应裁剪的PPT插件
  • 【SPIE/EI/Scopus检索】2026 年第三届数据挖掘与自然语言处理国际会议 (DMNLP 2026)
  • Vue 概述以及基本使用
  • Nature Genetics|空间蛋白组联合空间转录组发现非小细胞肺癌免疫治疗响应的预测标志物
  • 2025-ICML-Enhancing Spectral GNNs: From Topology and Perturbation Perspectives
  • Mac版PDF Squeezer v4.5.1安装教程(DMG文件下载+详细步骤)​
  • PDF处理控件Aspose.PDF教程:在C#中将PDF转换为Base64
  • 《恋爱先生》电视剧总结
  • Spring Boot实现日志链路追踪
  • 孝义网站建设南京网站销售
  • 网站后台都有哪些青海网站建设价格
  • 0.3、AI Agent 知识库、召回、Recall、Embedding等 相关的概念