当前位置: 首页 > news >正文

《DataX 安装与简单使用指南》

推荐原文 见:http://docs.xupengboo.top/bigdata/di/datax.html

DataX 开源项目地址:https://github.com/alibaba/DataX

DataX 概述:https://github.com/alibaba/DataX/blob/master/introduction.md

DataX 安装:https://github.com/alibaba/DataX/tree/master?tab=readme-ov-file#quick-start

1. 环境安装

# 1. jdk1.8
java -version
openjdk version "1.8.0_412"

# 2. 安装python2
sudo yum install python 
python --version
Python 2.7.5

# 3. 安装 maven3.x
sudo yum install -y maven
mvn --version
Apache Maven 3.0.5 (Red Hat 3.0.5-17)

2. DataX 部署

# 下载 DataX 工具包
curl -O -L https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202309/datax.tar.gz
# 解压
tar -zxvf datax.tar.gz

3. DataX 启动命令

# 进入 datax bin目录
cd  datax/bin
# 启动命令如下:
python datax.py {YOUR_JOB.json}
# 自检脚本:
python bin/datax.py job/job.json

4. DataX 配置模板

DataX 提供了快速生成读写插件配置模板的功能,你可以通过命令行直接生成对应 Reader(数据源)和 Writer(目标端)的 JSON 模板。

# 查看模板的格式:
python bin/datax.py -r {YOUR_READER} -w {YOUR_WRITER}
  • -r {READER_NAME}:指定读取数据的插件名称(如 mysqlreader)。
  • -w {WRITER_NAME}:指定写入数据的插件名称(如 hdfswriter)。
  • 功能:该命令会生成一个包含 readerwriter 基础配置的 JSON 模板,可直接作为作业配置文件的起点

例如:生成从 MySQL 读取数据 到 HDFS的模板:

python bin/datax.py -r mysqlreader -w hdfswriter

可以通过以下方式确认插件名称:

ls plugin/reader  # 查看所有Reader插件
ls plugin/writer  # 查看所有Writer插件
http://www.dtcms.com/a/122627.html

相关文章:

  • 计算机视觉中的基于网格的卷绕算法全解析
  • Ansible(6)——管理变量
  • TDengine 数据模型设计:多列模式与单列模式对比(一)
  • UE5 matcap学习笔记
  • 单片机领域中哈希表
  • 基于 SpringBoot音乐网站与分享平台
  • 设计模式-命令模式详解
  • 大数据学习(104)-clickhouse与hdfs
  • Python web程序在服务器上面部署详细步骤
  • Java延迟队列
  • 铼赛智能Edge mini斩获2025法国设计大奖 | 重新定义数字化齿科美学
  • 深入解析 C++ 设计模式:原理、实现与应用
  • YOLOv12即插即用--CPAM
  • 【Kafka基础】消费者命令行完全指南:从基础到高级消费
  • 软考高级-系统架构设计师 案例题-软件架构设计
  • vue:前端预览 / chrome浏览器设置 / <iframe> 方法预览 doc、pdf / vue-pdf 预览pdf
  • 蓝桥杯 一年中的第几天(日期问题)
  • 如何运用浏览器进行各种调试?(网络、内存、控制台等调试用法)
  • 前端实战:基于Vue3与免费满血版DeepSeek实现无限滚动+懒加载+瀑布流模块及优化策略
  • Vert.x vs. Micronaut:2025年高并发Java框架选型指南
  • redisson常用加锁方式
  • 【代码模板】判断C语言中文件是否存在?错误:‘F_OK’未声明如何处理?(access;#include “unistd.h“)
  • 【智慧养猪场】-猪的行为分析视频数据集及展示(已做好分类)
  • C —— 宏
  • Redis-场景缓存+秒杀+管道+消息队列
  • 保留格式地一键翻译英文ppt
  • etf可以T+0交易吗?
  • 基础知识补充篇:什么是DAPP前端连接中的provider
  • 用网页JS实现数据添加和取出的操作,链表
  • Class 文件和类加载机制