当前位置: 首页 > news >正文

spark-配置yarn模式

1.上传并解压spark-3.1.1-bin-hadoop3.2.tgz  (/opt/software)
解压的命令是:tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module 

(cd /opt/software  进入software)
2.重命名
解压之后的目录为spark-yarn(原为spark-3.1.1-bin-hadoop3.2.tgz)
3.改Spark-yarn的环境变量
路径:/etc/profile.d/my_env.sh
my_env.sh双击打开 最后三行  
(若做过spark-local则将spark-local改为spark-yarn)
具体如下:
# spark 环境变量
export SPARK_HOME=/opt/module/spark-yarn
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
4.生效
命令:source /etc/profile
5.验证是否生效成功
命令:echo $PATH
看最后是否有 /opt/module/spark-yarn/sbin
6.同步
命令:xsync  /etc/profile.d
7.修改hadoop的配置
/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml 
双击打开  加上
<!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
     <name>yarn.nodemanager.pmem-check-enabled</name>
     <value>false</value>
</property>

<!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
<property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
</property>

8.同步
xsync /opt/module/hadoop-3.1.3/etc/hadoop
9.修改spark配置(改spark-yarn)  把三个文件的名字重新设置一下。
  在spark-yarn里双击conf文件
workers.tempalte 改成 workers
spark-env.sh.template 改成 spark-env.sh
spark-defaults.conf.template 改成 spark-defaults.conf
10.然后,在workers文件中添加
hadoop100
hadoop101
hadoop102

在spark-env.sh文件中,添加如下
SPARK_MASTER_HOST=hadoop100
SPARK_MASTER_PORT=7077
HADOOP_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop
YARN_CONF_DIR=/opt/module/hadoop-3.1.3/etc/hadoop
export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://hadoop100:8020/directory"

在spark-defaults.conf文件中,添加如下
spark.eventLog.enabled true
spark.eventLog.dir hdfs://hadoop100:8020/directory
spark.yarn.historyServer.address=hadoop100:18080
spark.history.ui.port=18080

10.同步配置文件到其他设备
xsync /opt/module/spark-yarn/sbin
(下方搜索栏在/opt/module/spark-yarn)
11.启动集群
注意这里要同时启动hadoop和spark
http://hadoop100:9870
http://hadoop101:8088
(myhadoop start)
启动spark和spark的历史服务器
进入/opt/module/spark-yarn/sbin  
运行: ./start-all.sh 和 ./start-history-server.sh
并通过jps去检查是否有对应的进程。
12.提交任务到集群
使用spark-submit提交任务
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster  /opt/module/spark-standalone/examples/jars/spark-examples_2.12-3.1.1.jar 10

13.查看运行结果
 在yarn任务面板页面中可以看到任务的信息。
http://hadoop101:8088
最终在在http://hadoop100:18080可以看到
 

相关文章:

  • 吴恩达机器学习(1)——机器学习算法分类
  • SpringBoot项目里面发起http请求的几种方法
  • 【Spring】Spring中的适配器模式
  • 【PRB】深度解析GaN中最浅的受主缺陷
  • go语言协程调度器 GPM 模型
  • Vue-监听属性
  • 理想AI Talk第二季-重点信息总结
  • 【ROS2】RViz2源码分析(九):RosClientAbstraction和RosNodeAbstraction的关系
  • ngx_http_realip_module 模块概述
  • 【DeepSeek论文精读】11. 洞察 DeepSeek-V3:扩展挑战和对 AI 架构硬件的思考
  • c++多线程debug
  • 符合Python风格的对象(再谈向量类)
  • Spring Web MVC————入门(3)
  • Go语言--语法基础5--基本数据类型--类型转换
  • Vue 3 中使用 md-editor-v3 的完整实例markdown文本
  • 网络编程套接字(二)
  • 高并发内存池|二、Common
  • 【JavaWeb】JDBC
  • 如何利用内网穿透实现Cursor对私有化部署大模型的跨网络访问实践
  • java中sleep()和wait()暂停线程的区别
  • wordpress商城建站教程/最能打动顾客的十句话
  • 域名销售网站/网站首页布局设计模板
  • 做网站的小结/热门关键词排名查询
  • 网站开发网站制作报价单/百度搜索引擎怎么做
  • 做网站兼容性如何处理/梅州seo
  • wordpress 删除草稿/重庆网站seo公司