当前位置：首页 > news >正文

什么是SparkONYarn模式

news 2025/11/1 21:14:17

1. 什么是 Spark on YARN？

Spark on YARN 是 Apache Spark 的一种部署模式，允许 Spark 应用程序在 Hadoop YARN 集群上运行，充分利用 YARN 的资源管理和调度能力。这种模式将 Spark 与 Hadoop 生态深度集成，使企业能够在同一集群上统一管理批处理、流处理、交互式查询等多种工作负载。

2. 核心优势

资源统一管理
- 与 Hadoop 共享集群资源，避免资源孤岛（如 MapReduce、Hive、Spark 可共存）。
- YARN 根据工作负载动态分配资源，提高集群利用率。
简化运维
- 依托 YARN 的高可用性（HA）和资源隔离机制，降低运维复杂度。
- 支持与现有 Hadoop 集群无缝集成，无需额外部署集群管理器。
灵活的资源分配
- 支持 内存 / CPU 细粒度控制，通过 spark-submit 参数调整资源分配。
- 可配置多队列（如生产队列、测试队列），实现资源隔离。
丰富的调度策略
- 继承 YARN 的调度器（容量调度器、公平调度器），满足不同业务需求。

3. 架构组件

Spark on YARN 的架构涉及三个核心组件：

YARN 组件
- ResourceManager (RM)：全局资源管理器，负责分配集群资源。
- NodeManager (NM)：每个节点的代理，管理容器（Container）生命周期。
- 调度器：如容量调度器（Capacity Scheduler）或公平调度器（Fair Scheduler）。
Spark 组件
- Driver：应用程序的主进程，负责调度任务。
- Executor：运行在容器中的工作进程，执行具体计算任务。
通信流程
- Spark 应用通过 spark-submit 向 YARN RM 提交请求。
- RM 分配 Container 并启动 ApplicationMaster（Spark Driver）。
- Driver 向 RM 注册并请求资源，然后与 NM 通信启动 Executor。

4. 部署模式

Spark on YARN 支持两种部署模式：

Client 模式
- Driver 运行在客户端：
  - 适用于交互式应用（如 Spark Shell、Jupyter Notebook）。
  - Driver 在提交作业的客户端进程中运行，直接接收任务输出。
- 提交命令：
  bash
```
spark-submit \--master yarn \--deploy-mode client \--num-executors 10 \--executor-memory 4g \my-app.jar
```
Cluster 模式
- Driver 运行在集群中：
  - 适用于生产环境，避免客户端与集群长时间连接。
  - Driver 作为 YARN 中的一个 ApplicationMaster 运行，与客户端分离。
- 提交命令：
  bash
```
spark-submit \--master yarn \--deploy-mode cluster \--num-executors 10 \--executor-memory 4g \my-app.jar
```

5. 资源配置参数

通过 spark-submit 或 spark-defaults.conf 配置：

参数	说明
`--num-executors`	启动的 Executor 数量（默认 2）。
`--executor-memory`	每个 Executor 的内存大小（如 4g）。
`--executor-cores`	每个 Executor 的 CPU 核心数（默认 1）。
`--driver-memory`	Driver 的内存大小（默认 1g）。
`--queue`	指定 YARN 队列名称（如 `default`、`prod`）。
`--conf spark.yarn.maxAppAttempts`	应用最大重试次数（默认 2）。
`--conf spark.yarn.executor.memoryOverhead`	每个 Executor 的堆外内存（默认 executorMemory * 0.10）。

6. 典型应用场景

混合工作负载集群
- 在同一 Hadoop 集群上同时运行 Spark、MapReduce、Hive 等作业。
企业级数据平台
- 利用 YARN 的资源隔离特性，为不同部门分配专用队列（如财务、研发）。
大规模数据处理
- 处理 PB 级数据，通过 YARN 动态调整资源应对峰值负载。

7. 监控与故障排查

YARN Web UI
- http://resourcemanager:8088：查看所有应用状态、资源使用情况。

Spark Web UI

Driver 运行时的 Web UI（默认端口 4040）：

plaintext

http://driver-node:4040  # Client 模式
http://application-master-node:4040  # Cluster 模式

日志查看

YARN 应用日志：

bash

yarn logs -applicationId <application_id>

8. 优缺点

优点	缺点
与 Hadoop 生态无缝集成	依赖 YARN，增加部署复杂度
资源利用率高	任务启动延迟较高（需等待 Container 分配）
支持高可用性	需深入理解 YARN 配置和调优
多租户资源隔离	对网络和磁盘 I/O 敏感

9. 配置步骤

确保 YARN 正常运行
- 启动 HDFS 和 YARN：
  bash
```
start-dfs.sh
start-yarn.sh
```

配置 Spark

编辑 $SPARK_HOME/conf/spark-env.sh：

bash

export HADOOP_CONF_DIR=/path/to/hadoop/etc/hadoop  # Hadoop 配置目录

提交作业

bash

spark-submit \--master yarn \--deploy-mode cluster \--class org.apache.spark.examples.SparkPi \$SPARK_HOME/examples/jars/spark-examples_*.jar \100

查看全文

http://www.dtcms.com/a/188851.html

[Java实战]Spring Boot 3 整合 Ehcache 3（十九）

Centos7安装部署wordpress个人博客保姆级教程

window 显示驱动开发-报告图形内存（一）

typedef unsigned short uint16_t； typedef unsigned int uint32_t；

‌C# 集成 FastDFS 完整指南‌

C++ string数据查找、string数据替换、string子串获取

MySQL 数据库：创建新数据库和数据表全攻略

在Ubuntu服务器上部署Label Studio

蓝桥杯13届国B 出差

软件产品线上验收测试有什么目的?又有哪些测试流程?

Java接口性能优化：零成本实现数据库状态到中文的极致转换

【图像处理基石】遥感图像分析入门

硬件自动化测试平台搭建（硅后验证，非EDA）day1 大概了解

【报错解决】服务器重启后vscode远程连接失败

‌Element UI 双击事件（@cell-dblclick 与 @row-dblclick）

使用java通过modbus读取前端设备数据

AI Agent开发第65课-DIFY和企业现有系统结合实现高可配置的智能零售AI Agent(下)

【Python爬虫！！！！！！政府招投标数据爬虫项目--医疗实例项目文档（提供源码！！！）！！！学会Python爬虫轻松赚外快】

现代化QML组件开发教程

支付宝小程序开发指南

在Babylon.js中实现完美截图：包含Canvas和HTML覆盖层

Rollup入门与进阶：为现代Web应用构建超小的打包文件

Q1财报持续向好，腾讯音乐如何在不确定中寻找确定性？

FlashInfer - 安装

Spark自定义分区器-基础

订单服务拆分库表迁移实践

杰理-701-手表sdk无法电脑连接经典蓝牙

calico.yaml+国内源

《Effective Python》第2章字符串和切片操作——深入理解Python 中的字符数据类型（bytes 与 str）的差异

Day1 时间复杂度

1. 什么是 Spark on YARN？

2. 核心优势

3. 架构组件

4. 部署模式

5. 资源配置参数

6. 典型应用场景

7. 监控与故障排查

8. 优缺点

9. 配置步骤

相关文章：