当前位置: 首页 > news >正文

hadoop集群建立

建立Hadoop集群的步骤指南

建立Hadoop集群需要系统规划和多个步骤的配置。以下是详细的建立流程:

一、前期准备

  1. 硬件需求

    • 多台服务器(至少3台,1主2从)

    • 每台建议配置:至少4核CPU,8GB内存,100GB硬盘

    • 稳定的网络连接(千兆网络推荐)

  2. 软件需求

    • Linux操作系统(推荐CentOS或Ubuntu Server)

    • Java JDK (推荐JDK 8或11)

    • Hadoop软件包(从Apache官网下载)

二、环境设置

  1. 在所有节点上操作

    bash

    复制

    下载

    # 创建hadoop用户
    sudo useradd -m hadoop
    sudo passwd hadoop# 安装Java
    sudo apt-get install openjdk-8-jdk
    # 或
    sudo yum install java-1.8.0-openjdk# 验证Java安装
    java -version
  2. 配置SSH免密登录

    bash

    复制

    下载

    # 在主节点生成密钥
    ssh-keygen -t rsa# 将公钥复制到所有节点(包括自己)
    ssh-copy-id hadoop@master
    ssh-copy-id hadoop@slave1
    ssh-copy-id hadoop@slave2

三、Hadoop配置

  1. 解压并设置环境变量

    bash

    复制

    下载

    tar -xzf hadoop-3.x.x.tar.gz
    mv hadoop-3.x.x /usr/local/hadoop# 编辑~/.bashrc
    export HADOOP_HOME=/usr/local/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64source ~/.bashrc
  2. 配置核心文件

    • core-site.xml

      xml

      复制

      下载

      运行

      <configuration><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop/tmp</value></property>
      </configuration>
    • hdfs-site.xml

      xml

      复制

      下载

      运行

      <configuration><property><name>dfs.replication</name><value>2</value></property><property><name>dfs.namenode.name.dir</name><value>/usr/local/hadoop/hdfs/namenode</value></property><property><name>dfs.datanode.data.dir</name><value>/usr/local/hadoop/hdfs/datanode</value></property>
      </configuration>
    • mapred-site.xml

      xml

      复制

      下载

      运行

      <configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property>
      </configuration>
    • yarn-site.xml

      xml

      复制

      下载

      运行

      <configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.resourcemanager.hostname</name><value>master</value></property>
      </configuration>
    • workers文件 (列出所有从节点)

      复制

      下载

      slave1
      slave2

四、分发配置到所有节点

bash

复制

下载

scp -r /usr/local/hadoop hadoop@slave1:/usr/local/
scp -r /usr/local/hadoop hadoop@slave2:/usr/local/
scp ~/.bashrc hadoop@slave1:~/
scp ~/.bashrc hadoop@slave2:~/

五、启动集群

  1. 在主节点格式化HDFS

    bash

    复制

    下载

    hdfs namenode -format
  2. 启动HDFS

    bash

    复制

    下载

    start-dfs.sh
  3. 启动YARN

    bash

    复制

    下载

    start-yarn.sh
  4. 验证集群状态

    bash

    复制

    下载

    jps  # 查看Java进程
    hdfs dfsadmin -report  # 查看HDFS状态

相关文章:

  • git 怎样把本地仓库推送到新建的远程仓库
  • Map系列之ConcurrentHashMap源码分析:高并发场景下的性能密码
  • DirectX12(D3D12)基础教程七 深度模板视图\剔除\谓词
  • 【Scrapy】简单项目实战--爬取dangdang图书信息
  • Java泛型(补档)
  • 2025华东杯B题华东杯数学建模思路代码成品讲解工序安排问题
  • Learning vtkjs之ImageMarchingSquares
  • 在Java中使用Files类的copy()方法复制文件的示例
  • Ubuntu20.04安装NVIDIA Warp
  • 【数据结构】——顺序表刷题
  • Linux远程管理
  • WPACS基于HTML5的DICOM影像浏览
  • 92.一个简单的输入与显示示例 Maui例子 C#例子
  • 【计算机视觉】目标检测:深度解析MMDetection:OpenMMLab开源目标检测框架实战指南
  • C++中std::map、std::list和std::deque的底层实现是怎样的?
  • 2025 新生 DL-FWI 培训
  • MT6765 android上层获取VCM lens位置
  • 上海地区IDC机房服务器托管选型报告(2025年4月30日)
  • Power Automate:发送邮件时加入表格
  • pinia实现数据持久化插件pinia-plugin-persist-uni
  • “五一”假期首日跨区域人员流动预计超3.4亿人次
  • 关于新冠疫情防控与病毒溯源的中方行动和立场
  • 国家能源局通报上月投诉情况:赤峰有群众反映电费异常增高,已退费
  • 三大猪企一季度同比均实现扭亏为盈,营收同比均实现增长
  • 东风着陆场做好各项搜救准备,迎接神舟十九号航天员天外归来
  • 4月人文社科联合书单|天文学家的椅子