当前位置: 首页 > news >正文

中小型企业大数据平台全栈搭建:Hive+HDFS+YARN+Hue+ZooKeeper+MySQL+Sqoop+Azkaban 保姆级配置指南

目录

  • 背景‌
  • 一、环境规划与依赖准备‌
    • 1. 服务器规划(3节点集群)
    • 2. 系统与依赖‌
    • 3. Hadoop生态组件版本与下载路径
  • 二、Hadoop(HDFS+YARN)安装与配置‌
    • 1. 下载与解压(所有节点)
    • 2. HDFS高可用配置
    • 3. YARN资源配置‌
    • 4. 启动Hadoop集群
  • 三、MySQL安装与Hive元数据配置‌
    • 1. 安装MySQL(Master节点)
    • 2. Hive配置连接MySQL
    • 3. 初始化Hive元数据
  • 四、Sqoop安装与数据迁移实战‌
    • 1. 下载与配置(Master节点)
    • 2. 配置环境变量
  • 五、Azkaban工作流调度系统部署‌
    • 1. 安装Azkaban(Master和Worker1节点)
    • 2. 配置Azkaban‌
    • 3. 启动服务
  • 六、Hue可视化平台与ZooKeeper配置‌
    • 1. Hue安装与配置(Master节点)‌
    • 2. ZooKeeper集群配置‌
  • 六、常见问题解决方案
  • 七、总结与维护指南‌
    • 1. 核心组件配置表
    • 2. 维护建议‌
    • 3. ‌部署建议‌

背景‌

对于中小企业,构建一套完整的本地化大数据平台需兼顾成本(5w内)、易用性和扩展性。基于Hadoop生态的组件(HDFS、YARN、Hive)结合数据工具(Sqoop、Azkaban)、可视化工具(Hue)和协调服务(ZooKeeper),能够实现从数据存储、计算、调度到可视化的全链路管理。
本文基于生产环境实践,详细讲解以下组件的安装、配置与联动:

  • 存储与计算‌:HDFS、YARN、Hive
  • 数据迁移‌:Sqoop(Hive与MySQL数据互通)
  • 调度系统‌:Azkaban
  • 可视化与协调‌:Hue、ZooKeeper
  • 元数据管理‌:MySQL

(一、环境规划与依赖准备‌中)提供全组件官方下载地址‌ 和 ‌配置模板‌,助您快速搭建企业级数据平台!

一、环境规划与依赖准备‌

1. 服务器规划(3节点集群)

节点角色 IP地址 部署服务
Master‌ 192.168.1.101 NameNode、ResourceManager、Hive、Hue、ZooKeeper、Azkaban Web Server、MySQL
Worker1‌ ‌192.168.1.102 DataNode、NodeManager、ZooKeeper、Azkaban Executor
Worker2‌ ‌192.168.1.103 DataNode、NodeManager、ZooKeeper

2. 系统与依赖‌

  • 操作系统‌:CentOS 7.9(所有节点)
  • JDK‌:JDK 8u381(下载地址)
  • ‌MySQL‌:5.7.44(存储Hive元数据)
  • Python‌:3.6+(Hue依赖)

3. Hadoop生态组件版本与下载路径

组件 稳定版本 官方下载路径
HDFS 3.3.6 Apache Hadoop Releases
YARN 3.3.6 同上
Hive 3.1.3 Apache Hive Downloads
Hue 4.11.0 Gethue Releases
ZooKeeper 3.7.1 Apache ZooKeeper
MySQL 5.7.44 MySQL Community Server
Sqoop 1.4.7 Apache Sqoop
Azkaban 4.0.0 Azkaban GitHub Releases
Python 3.6+ EPEL 仓库安装 1. sudo yum install -y epel-release
2. sudo yum install -y python36 python36-devel

二、Hadoop(HDFS+YARN)安装与配置‌

1. 下载与解压(所有节点)

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
tar -zxvf hadoop-3.3.6.tar.gz -C /opt  
mv /opt/hadoop-3.3.6 /opt/hadoop  

2. HDFS高可用配置

1)core-site.xml‌

<configuration>  
    <property>  
        <name>fs.defaultFS</name>  
        <value>hdfs://mycluster</value>  
    </property>  
    <property>  
        <name>hadoop.tmp.dir</name

相关文章:

  • 开源数据仓库全解 — 从原理到实践
  • 【Excel】- 导入报错Can not find ‘Converter‘ support class LocalDateTime
  • 变频器与电机共地可能引发的电磁耦合会引起的故障
  • 【蓝桥杯】24省赛:数字串个数
  • 如何在实际应用中测量和调整直线导轨的预紧力?
  • c++stl之unordered-map以及set
  • CentOS系统中使用sendmail
  • Python爬虫:playwright的使用
  • 【数据结构】数据结构,算法 概念
  • @SpringBootApplication
  • 9.贪心算法
  • 每日一题---单词搜索(深搜)
  • 本地化部署Deepseek关于Ollama 安全加固方案(新手易学)
  • 基于SpringBoot实现旅游酒店平台功能十六
  • element 的tab怎么动态根据参数值添加一个vue页面
  • UE4-UE5虚幻引擎,前置学习一--Console日志输出经常崩溃,有什么好的解决办法
  • C#的简单工厂模式、工厂方法模式、抽象工厂模式
  • C语言中关于数组和指针的重点知识
  • Hive SQL 精进系列:PERCENTILE_APPROX 搞定分位数
  • Android Dagger2 框架辅助工具模块深度剖析(六)
  • 空调+零食助顶级赛马备战,上海环球马术冠军赛即将焕新登场
  • 抗美援朝老战士宁昭逝世,享年93岁
  • 屠呦呦当选美国国家科学院外籍院士
  • 顺利撤离空间站,神十九乘组踏上回家之旅
  • 影子调查丨危房之下,百余住户搬离梦嘉商贸楼
  • 视觉周刊|2025上海车展的科技范