当前位置: 首页 > news >正文

搭建spark yarn 模式的集群

搭建Spark YARN模式集群步骤

1. 环境准备

系统:采用Linux系统(如Ubuntu、CentOS ),借助ntp实现节点间时间同步,关闭防火墙及SELinux。

Java:安装JDK 8及以上版本,配置JAVA_HOME环境变量。

Hadoop:部署包含HDFS和YARN的Hadoop集群,配置HADOOP_HOME和PATH环境变量。

2. 安装Spark

下载:从Spark官网下载适配Hadoop版本的二进制包,解压至各节点。

环境变量配置:在~/.bashrc中添加 export SPARK_HOME=/path/to/spark 和 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin  ,并执行 source ~/.bashrc 刷新配置。

3. 配置Spark on YARN

文件修改:在 $SPARK_HOME/conf 目录下,将spark - env.sh.template复制为spark - env.sh ,slaves.template复制为slaves 。在spark - env.sh中添加 export HADOOP_CONF_DIR=/path/to/hadoop/conf 和 export YARN_CONF_DIR=/path/to/hadoop/conf  (指向Hadoop配置目录);在slaves文件中按每行一个的格式列出所有Worker节点的主机名或IP 。

配置分发:利用scp或rsync等工具,将Spark目录及配置文件复制到所有节点。

4. 启动集群

启动Hadoop:依次执行 start - dfs.sh 启动HDFS , start - yarn.sh 启动YARN。

启动Spark Worker:在Master节点执行 start - slaves.sh  ,通过访问YARN界面(默认端口8088 )查看节点状态。

5. 验证任务

执行 spark - submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark - examples*.jar 10 提交示例任务测试,可通过YARN界面或相关命令查看任务日志。

注意事项

通过 --executor - memory 和 --executor - cores 参数调整任务资源;若需实现高可用(HA) ,需配置ZooKeeper和多Master节点。

相关文章:

  • 武汉火影数字|数字规划馆打造沉浸式数字化互动内容
  • 5月6日日记
  • n8n 与智能体构建:开发自动化 AI 作业的基础平台
  • 使用Java实现任务调度:从Timer到Quartz
  • 【CPU占用率查看】
  • 从零开始学习人工智能(Python高级教程)Day6-Python3 正则表达式
  • 《C语言中的结构体:数据组织的艺术》
  • 美信监控易:全栈式自主可控的底层架构优势
  • Qwen3简要介绍(截止20250506)
  • 基于ResNet50的手写符号识别系统
  • yolov8中的python基础--模块导入篇
  • Linux进程间通信(上)(21)
  • Marin说PCB之POC电路layout设计仿真案例---08
  • 在Fluent中使用Python脚本实现UDF并访问场数据和网格数据
  • GTC25 的 6G 会议
  • 【Linux我做主】深入探讨从冯诺依曼体系到进程
  • 人形机器人重塑制造业:仿生技术革命背后的机遇与隐忧
  • 406错误,WARN 33820 --- [generator] [nio-8080-exec-4] .w.s.m.s.DefaultHa
  • FlexibleButton:一个轻巧灵活的按键处理库,让你的按键处理更简单
  • 强力巨彩租赁屏:加速技术迭代助力舞台艺术焕新
  • 成立6天的公司拍得江西第三大水库20年承包经营权,当地回应
  • 印巴战火LIVE|巴基斯坦多地遭印度导弹袭击,巴总理称“有权作出适当回应”
  • 五一假期,长三角铁路张家港、台州等多个车站客发量创新高
  • 躺着玩手机真有意思,我“瞎”之前最喜欢了
  • “子宫肌瘤男性病例”论文后:“宫颈癌、高危产妇”论文也现男性病例,作者称“打错了”
  • 上海今日降雨降温,节后首个工作日气温回升最高可达28℃