搭建spark yarn 模式的集群
搭建Spark YARN模式集群步骤
1. 环境准备
系统:采用Linux系统(如Ubuntu、CentOS ),借助ntp实现节点间时间同步,关闭防火墙及SELinux。
Java:安装JDK 8及以上版本,配置JAVA_HOME环境变量。
Hadoop:部署包含HDFS和YARN的Hadoop集群,配置HADOOP_HOME和PATH环境变量。
2. 安装Spark
下载:从Spark官网下载适配Hadoop版本的二进制包,解压至各节点。
环境变量配置:在~/.bashrc中添加 export SPARK_HOME=/path/to/spark 和 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin ,并执行 source ~/.bashrc 刷新配置。
3. 配置Spark on YARN
文件修改:在 $SPARK_HOME/conf 目录下,将spark - env.sh.template复制为spark - env.sh ,slaves.template复制为slaves 。在spark - env.sh中添加 export HADOOP_CONF_DIR=/path/to/hadoop/conf 和 export YARN_CONF_DIR=/path/to/hadoop/conf (指向Hadoop配置目录);在slaves文件中按每行一个的格式列出所有Worker节点的主机名或IP 。
配置分发:利用scp或rsync等工具,将Spark目录及配置文件复制到所有节点。
4. 启动集群
启动Hadoop:依次执行 start - dfs.sh 启动HDFS , start - yarn.sh 启动YARN。
启动Spark Worker:在Master节点执行 start - slaves.sh ,通过访问YARN界面(默认端口8088 )查看节点状态。
5. 验证任务
执行 spark - submit --master yarn --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark - examples*.jar 10 提交示例任务测试,可通过YARN界面或相关命令查看任务日志。
注意事项
通过 --executor - memory 和 --executor - cores 参数调整任务资源;若需实现高可用(HA) ,需配置ZooKeeper和多Master节点。