当前位置: 首页 > news >正文

【spark-submit】--提交任务

Spark-submit

spark-submit 是 Apache Spark 提供的用于提交 Spark 应用程序到集群的命令行工具。

基本语法

spark-submit [options] <app-jar> [app-arguments]

常用参数说明

应用程序配置

  • --class <class-name>: 指定应用程序的主类(对于 Java/Scala 程序)
  • --name <app-name>: 设置应用程序名称
  • --jars <jars>: 添加额外的 JAR 文件到 classpath(逗号分隔)
  • --py-files <files>: 为 Python 应用添加额外的文件(.zip, .egg, .py)
  • --files <files>: 将文件上传到执行器工作目录(逗号分隔)
  • --conf <key>=<value>: 设置任意 Spark 配置属性

资源分配

  • --driver-memory <memory>: 设置 Driver 进程内存(如 1g)
  • --executor-memory <memory>: 设置每个 Executor 进程内存(如 1g)
  • --executor-cores <num>: 设置每个 Executor 使用的核心数
  • --num-executors <num>: 设置要启动的 Executor 数量
  • --total-executor-cores <num>: 设置所有 Executor 使用的总核心数

部署模式

  • --master <master-url>: 指定集群管理器

    • local: 本地模式(单线程)
    • local[K]: 本地模式(K 个线程)
    • local[*]: 本地模式(使用所有核心)
    • spark://host:port: 连接到独立部署的 Spark 集群
    • mesos://host:port: 连接到 Mesos 集群
    • yarn: 连接到 YARN 集群
    • k8s://https://host:port: 连接到 Kubernetes 集群
  • --deploy-mode <mode>: 部署模式(client 或 cluster)

    • client: Driver 在提交的客户端运行(默认)
    • cluster: Driver 在集群中运行

其他参数

  • --verbose: 打印调试信息
  • --version: 打印 Spark 版本
  • --help: 显示帮助信息
  • --supervise: 如果失败则自动重启 Driver(仅限独立集群)
  • --kill <submissionId>: 终止指定应用程序
  • --status <submissionId>: 查询指定应用程序状态

使用示例

spark-submit --master yarn \
--deploy-mode client \
--driver-memory xG \
--executor-memory XG \
--class org.xx.xx \
--executor-cores x \
jar包
arg0 arg1

基本示例

# 本地运行(4个线程)
spark-submit --class org.apache.spark.examples.SparkPi \
             --master local[4] \
             /path/to/examples.jar \
             100

# YARN 集群模式
spark-submit --class org.apache.spark.examples.SparkPi \
             --master yarn \
             --deploy-mode cluster \
             --executor-memory 2g \
             --num-executors 10 \
             /path/to/examples.jar \
             100

Python 应用示例

spark-submit --master spark://master:7077 \
             --executor-memory 1g \
             --py-files dependencies.zip \
             my_python_app.py \
             arg1 arg2

相关文章:

  • 苏州网站工作室推广拉新任务的平台
  • spring boot做网站武汉seo首页优化公司
  • 石材做网站细节seo短视频网页入口引流下载
  • 长沙网站seo推广公司seo提升排名
  • 自己做的网站加载慢的原因公司网站推广费用
  • 东莞网络推广运营团队百度seo关键词优化排行
  • LeetCode算法题(Go语言实现)_38
  • 【01BFS】# P4667 [BalticOI 2011] Switch the Lamp On 电路维修 (Day1)|普及+
  • React Native (RN)的学习上手教程
  • datagrip如何连接数据库
  • 驱动开发硬核特训 · Day 7:深入掌握 Linux 驱动资源管理机制(Resource Management)
  • BOE(京东方)旗下控股子公司“京东方能源”成功挂牌新三板 以科技赋能零碳未来
  • docker的安装使用0废话版本自学软硬件工程师778天
  • CExercise_09_2动态拼接字符串_1字符串拼接
  • 图像处理中的梯度计算、边缘检测与凸包特征分析技术详解
  • 衣橱管理助手系统(衣服推荐系统)(springboot+ssm+vue+mysql)含运行文档
  • Spark-SQL 之 Window
  • 算法题型讲解
  • Ubuntu安装Docker引擎
  • SD + Contronet,扩散模型V1.5+约束条件后续优化:保存Canny边缘图,便于视觉理解——stable diffusion项目学习笔记
  • Java学习总结-TCP通信-支持与多个客户端同时通信
  • 园区网拓扑作业
  • CSP认证准备第二天-第36/37次CCF认证
  • 3.IS-IS认证
  • 2143 最少刷题数
  • 【MySQL 删除数据详解】