当前位置: 首页 > news >正文

【Spark征服之路-2.1-安装部署Spark(一)】

  • 实验目标:

本节课实验将完成Spark 4种部署模式的其中2种,分别是Local、Standalone模式。

  • 实验准备工作:
  1. 三台linux虚拟机
  2. spark的压缩包
  • 实验步骤:
Spark-local

Spark的Local模式仅需要单个虚拟机节点即可,无需启动hadoop集群。实验步骤如下:

1. 将spark的安装包上传到虚拟机node01中(建议路径:/opt/software/spark)并解压缩文件。将解压文件夹重命名为spark-local

解压:tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz

重命名:mv spark-3.0.0-bin-hadoop3.2.tgz spark-local

2. 启动Local环境。进入spark-local中,执行如下命令:

bin/spark-shell

启动成功后,可以输入网址进行Web UI监控页面进行访问。(默认端口为4040)

3. 命令行工具

在解压缩文件夹下的 data 目录中,添加 word.txt 文件。

在命令行工具中执行如下代码指令。

sc.textFile("data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

4. 退出本地模式

Ctrl+C 或者输入scala命令:quit

5. 提交测试应用

在spark-local路径中输入以下指令:

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master local[2] \

./examples/jars/spark-examples_2.12-3.0.0.jar \

10

指令说明:

1) --class 表示要执行程序的主类,此处可以更换为咱们自己写的应用程序

2) --master local[2] 部署模式,默认为本地模式,数字表示分配的虚拟 CPU 核数量

3) spark-examples_2.12-3.0.0.jar 运行的应用类所在的 jar 包,实际使用时,可以设定为咱们自己打的 jar 包

4) 数字 10 表示程序的入口参数,用于设定当前应用的任务数量

运行结果:

Spark-standalone

Spark的独立部署模式可以类比HDFS的完全分布式安装,在这个模式中只会使用Spark自身节点来运行集群,Spark-standalone体现了经典的master-slave模式。

集群规划:

node01

node02

node03

Spark

Master  Worker

Worker

Worker

实验步骤:

1. 解压缩文件。将解压后的文件夹重命名为spark-standalone。

mv spark-3.0.0-bin-hadoop3.2 spark-standalone

在node02、node03节点上分别创建spark文件夹(路径为/opt/software/spark)

2. 修改配置文件

①进入spark-standalone的 conf 目录,修改 slaves.template文件名为 slaves

mv slaves.template slaves

②修改slaves文件,添加worker节点

vi slaves

③修改 spark-env.sh.template 文件名为 spark-env.sh

    mv spark-env.sh.template spark-env.sh

    ④修改 spark-env.sh 文件,添加Java的环境变量和集群对应的 master 节点

    vi spark-env.sh

    ⑤分发 spark-standalone 目录(需要提前在node02、node03节点的对应路径创建spark文件夹)

    scp -r spark-standalone node02:/opt/software/spark

    scp -r spark-standalone node03:/opt/software/spark

    启动集群

    ①在spark-standalone路径下执行脚本命令

    sbin/start-all.sh

    ②查看三台节点的运行进程

    ③查看Master资源监控Web UI界面 node01:8080

    ④提交测试应用

    bin/spark-submit \

    --class org.apache.spark.examples.SparkPi \

    --master spark://node01:7077 \

    ./examples/jars/spark-examples_2.12-3.0.0.jar \

    10

    参数说明:

    1) --class 表示要执行程序的主类

    2) --master spark://node01:7077 独立部署模式,连接到 Spark 集群

    3) spark-examples_2.12-3.0.0.jar 运行类所在的 jar 包

    4) 数字 10 表示程序的入口参数,用于设定当前应用的任务数量

    执行任务时,节点会产生多个Java进程

    执行任务时,默认采用服务器集群节点的总核数,每个节点内存 1024M。

    配置历史服务

    由于 spark-shell 停止掉后,集群监控 node01:4040 页面就看不到历史任务的运行情况,所以 开发时都配置历史服务器记录任务运行情况。

    ①修改 spark-defaults.conf.template 文件名为 spark-defaults.conf

    mv spark-defaults.conf.template spark-defaults.conf

    ②修改 spark-default.conf 文件,配置日志存储路径

    注意:需要启动 hadoop 集群,HDFS 上的 directory 目录需要提前存在。

    hdfs dfs -mkdir /directory

    ③修改 spark-env.sh 文件, 添加日志配置

    export SPARK_HISTORY_OPTS="

    -Dspark.history.ui.port=18080

    -Dspark.history.fs.logDirectory=hdfs://node01:9000/directory

    -Dspark.history.retainedApplications=30"

    参数含义:

    ⚫ 参数 1 含义:WEB UI 访问的端口号为 18080

    ⚫ 参数 2 含义:指定历史服务器日志存储路径

    ⚫ 参数 3 含义:指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。

    ④分发配置文件

    scp -r spark-defaults.conf node02:$PWD

    scp -r spark-defaults.conf node03:$PWD

    scp -r spark-env.sh node02:$PWD

    scp -r spark-env.sh node03:$PWD

    ⑤重新启动spark集群并启动历史服务

    sbin/stop-all.sh

    sbin/start-all.sh

    sbin/start-history-server.sh

    ⑥重新执行任务

    bin/spark-submit \

    --class org.apache.spark.examples.SparkPi \

    --master spark://node01:7077 \

    ./examples/jars/spark-examples_2.12-3.0.0.jar \

    10

    ⑦查看历史任务 node01:18080

    相关文章:

  1. 电力系统时间同步系统之二
  2. 振动力学:欧拉-伯努利梁的弯曲振动(考虑轴向力作用)
  3. 供应商管理系统
  4. 【vibe coding解决100个问题】开发CRM管理系统, Augment/windsurf/bolt.new哪家强?
  5. 解码高质量数据集炼金术,打造AI时代的超级燃料
  6. NTC热敏电阻
  7. OD 算法题 B卷【阿里巴巴找黄金宝箱(V)】
  8. RP2040 arduino使用内置USB串口 发送数据串口助手接收不到数据原因
  9. 行为型-模板模式
  10. LINUX64 FTP 1; rsync inotify.sh脚本说明
  11. 【统计方法】蒙特卡洛
  12. 分析Web3下数据保护的创新模式
  13. 05.字母异位词分组
  14. 量子通信:从科幻走向现实的未来通信技术
  15. 线性模型选择中容易被忽视的关键洞察
  16. Java八股文——Redis篇
  17. 前端组件推荐 Swiper 轮播与 Lightbox 灯箱组件深度解析
  18. grafana 批量视图备份及恢复(含数据源)
  19. Spring Boot微服务架构(十一):独立部署是否抛弃了架构优势?
  20. Windows下运行Redis并设置为开机自启的服务
  21. 上海网站建设公司案例/大数据网络营销
  22. 个人微商城怎么开通/上海aso优化公司
  23. 自己电脑做服务器发布网站/贵阳网站建设推广
  24. 做网站的专业叫什么/国内优秀个人网站欣赏
  25. 深圳市建设注册中心网站/seo咨询师
  26. 个人网站怎么做支付宝接口/谷歌广告推广