当前位置: 首页 > news >正文

Sqoop安装部署

Apache Sqoop 简介

Sqoop(SQL-to-Hadoop)是 Apache 开源项目,主要用于:

  • 将关系型数据库中的数据导入 Hadoop 分布式文件系统(HDFS)或相关组件(如 Hive、HBase)。

  • 将 Hadoop 处理后的数据导出回关系型数据库。

 

核心特性

  1. 批量数据传输
    支持从数据库表到 HDFS/Hive 的全量或增量数据迁移。

  2. 并行化处理
    基于 MapReduce 实现并行导入导出,提升大数据量场景的效率。

  3. 自动类型映射
    自动将数据库字段类型转换为 Hadoop 兼容类型(如 INT → IntegerWritable)。

  4. 事务一致性
    保证数据导出到数据库时的原子性(通过 --staging-table 等机制)。

  5. 灵活扩展
    支持自定义插件,适配不同数据库或数据格式(如 Avro、Parquet)。

使用场景

  • 数据仓库构建:将业务数据库数据导入 Hive 进行分析。

  • ETL 流程:配合 Spark、MapReduce 处理后的数据回写至数据库。

  • 日志归档:将历史日志从数据库迁移到 HDFS 长期存储。

 安装与配置

  1. 依赖环境

    • Hadoop 集群(HDFS、YARN)

    • Java 环境(JDK 8+)

    • 目标数据库的 JDBC 驱动(如 MySQL 的 mysql-connector-java.jar

  2. 安装 Sqoop

    • 从 Apache 官网 下载二进制包。

    • 解压并配置环境变量:

tar -zxvf sqoop-1.4.5.bin__hadoop-0.23.tar.gz -C ~/training/

 

 

 找到安装路径为了便于操作修改文件名称

mv sqoop-1.4.5.bin__hadoop-0.23/ sqoop/

 

 

 

设置环境变量
    vi ~/.bash_profile
    SQOOP_HOME=/root/training/sqoop
    export SQOOP_HOME

    PATH=$SQOOP_HOME/bin:$PATH
    export PATH

生效环境变量  
source ~/.bash_profile

 输入 sqoop 按2次 Tab 按键如下所示 安装成功

  • 将数据库 JDBC 驱动复制到 $SQOOP_HOME/lib 目录。

与其他工具对比

工具适用场景特点
Sqoop结构化数据库 ↔ Hadoop批量导入导出,强类型支持
Flume日志流 → HDFS实时流数据传输
Kafka实时数据流高吞吐消息队列

 

相关文章:

  • ST的全新STM32U3微控制器(MCU)简析
  • ECharts-一个基于js的可视化图表库
  • redis解决缓存穿透/击穿/雪崩
  • ADASIS V2 协议-2 消息详解
  • Linux NFS、自动挂载与系统启动管理指南
  • c#知识点补充2
  • m4i.22xx-x8系列-PCIe总线直流耦合5G采集卡
  • 高斯数据库如何执行大文件sql文本
  • CSS-文本属性1
  • SQL Server Management Studio(SSMS)安装教程
  • 【Go】切片
  • C#BeginInvoke编程基础(一)
  • python:调用 ui2 获取当前页面所有实时文本
  • 数据结构——优先级队列(堆)
  • 复习HCIA
  • 解决用three.js展示n个叠加的stl模型文件错位的问题
  • ubuntu qt工程打包后续:桌面快捷方式、开机登陆桌面后自动运行
  • OpenCV图像拼接(1)自动校准之校准旋转相机的函数calibrateRotatingCamera()
  • 在线JSON格式校验工具站
  • 详细介绍IDI_APPLICATION和IDC_ARROW
  • OpenAI与微软正谈判修改合作条款,以推进未来IPO
  • 淡马锡辟谣:淡马锡和太白投资未在中国销售任何投资产品或金融工具
  • 媒体谈法院就“行人相撞案”道歉:执法公正,普法莫拉开“距离”
  • “浦东时刻”在京展出:沉浸式体验海派风情
  • 保证断电、碰撞等事故中车门系统能够开启!隐藏式门把手将迎来强制性国家标准
  • 趣看 | 五一黄金周:你拍风景,拍风景的人在拍你