当前位置: 首页 > news >正文

Kettle 远程mysql 表导入到 hadoop hive

kettle 远程mysql 表导入到 hadoop hive

(教学用 )

在这里插入图片描述

文章目录

  • kettle 远程mysql 表导入到 hadoop hive
  • 创建 对象 执行 SQL 语句 -mysql 导出 CSV格式
  • CSV 文件远程上传到 HDFS
    • 运行 SSH 命令
    • 远程登录 run SSH 并执行 hadoop fs -put
  • 建表和加载数据
  • 总结


创建 对象 执行 SQL 语句 -mysql 导出 CSV格式

在这里插入图片描述

SELECT * 
INTO OUTFILE '/home/mysql-files/sakila_actor9.csv' 
FIELDS TERMINATED BY ',' 
ENCLOSED BY '' 
LINES TERMINATED BY '\n'
FROM sakila.actor;

CSV 文件远程上传到 HDFS

运行 SSH 命令

在这里插入图片描述

远程登录 run SSH 并执行 hadoop fs -put

在这里插入图片描述
在这里插入图片描述

/opt/module/hadoop-3.3.0/bin/hadoop fs -put /home/mysql-files/sakila_actor9.csv /user/hive/warehouse/

建表和加载数据

在这里插入图片描述

CREATE EXTERNAL TABLE IF NOT EXISTS sakiladb.actor9 
(actor_id STRING COMMENT 'from deserializer',first_name STRING COMMENT 'from deserializer',last_name STRING COMMENT 'from deserializer',last_update STRING COMMENT 'from deserializer'
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','  -- 列分隔符
STORED AS TEXTFILE;LOAD DATA INPATH '/user/hive/warehouse/sakila_actor9.csv' INTO TABLE actor9;

总结

通过 Kettle (Pentaho Data Integration),我们能够轻松地将远程 MySQL 数据库中的数据导出到 CSV 文件,上传到 HDFS,并最终将数据导入 Hive。这样,我们可以利用 Hadoop 的强大计算能力来进行数据处理和分析。以下是整个过程的概览:

导出 MySQL 数据为 CSV 格式:使用 Table Input 和 Text File Output 步骤。

上传 CSV 文件到 HDFS:通过 SSH Connection 执行 hadoop fs -put 命令。

在 Hive 中创建表并加载数据:使用 CREATE TABLE 和 LOAD DATA 命令。

这个过程不仅适用于 MySQL 和 Hive,也可以根据需要适配其他数据源和目标系统。


文章转载自:
http://analogist.alwpc.cn
http://american.alwpc.cn
http://abrade.alwpc.cn
http://age.alwpc.cn
http://alliance.alwpc.cn
http://alcidine.alwpc.cn
http://avellane.alwpc.cn
http://belemnoid.alwpc.cn
http://bimolecular.alwpc.cn
http://attention.alwpc.cn
http://apriority.alwpc.cn
http://attenuant.alwpc.cn
http://accelerograph.alwpc.cn
http://cantaloup.alwpc.cn
http://bruise.alwpc.cn
http://cartop.alwpc.cn
http://cabasset.alwpc.cn
http://anhematosis.alwpc.cn
http://blockboard.alwpc.cn
http://amalgam.alwpc.cn
http://affectively.alwpc.cn
http://abstinency.alwpc.cn
http://attired.alwpc.cn
http://aerobee.alwpc.cn
http://biblical.alwpc.cn
http://caulk.alwpc.cn
http://asbestiform.alwpc.cn
http://blimy.alwpc.cn
http://antirrhinum.alwpc.cn
http://chromoneter.alwpc.cn
http://www.dtcms.com/a/215581.html

相关文章:

  • 游戏引擎学习第314天:将精灵拆分成多个层
  • 华为高斯数据库(GaussDB)深度解析:国产分布式数据库的旗舰之作
  • OpenCV视觉图片调整:从基础到实战的技术指南
  • Vue 3.0 自定义 Composition API 管理状态
  • 决策树 GBDT XGBoost LightGBM
  • 引导者之歌------------嵌入式软件面试问题集成
  • uni-app(6):Vue3语法基础下
  • vue + ant-design + xlsx 实现Excel多Sheet页导出功能
  • pycharm 新UI 固定菜单栏 pycharm2025 中文版
  • day 23 机器学习管道(pipeline)
  • -资产收集篇FridaHOOKXposed证书提取单向双向检验抓包
  • Python入门手册:函数的定义和使用
  • 【C/C++】多线程下自旋锁的行为逻辑
  • Siege:开源的 HTTP/FTP 压力测试与基准评估工具!全参数详细教程!Kali Linux教程!
  • 网络套接字基础使用和概念
  • 【Mini-F5265-OB开发板试用测评】按键控制测试
  • AWS创建github相关的角色
  • go tour方法和接口
  • Mobaxterm解锁Docker
  • OpenCV CUDA模块图像处理------颜色空间处理之颜色空间转换函数cvtColor()
  • 高效多线程图像处理实战
  • 知识图谱:AI时代语义认知的底层重构逻辑
  • ASP.NET Web Forms框架识别
  • WPF【11_4】WPF实战-重构与美化(MVVM 架构)
  • ArcGIS Pro 3.4 二次开发 - 知识图谱
  • 飞牛fnNAS手机相册备份及AI搜图
  • 私服 nexus 之间迁移 npm 仓库
  • 融智学“新五常”框架:五维方式的重构与协同
  • 银河麒麟V10×R²AIN SUITE:用AI重构安全,以国产化生态定义智能未来
  • libvirt设置虚拟机mtu实现原理