当前位置: 首页 > news >正文

使用 spark-submit 运行依赖第三方库的 Python 文件

python文件在spark集群运行真的麻烦,烦冗

spark运行分为了三个模式,本地模式/client模式/cluster模式

文章目录

  • 本地模式
  • client模式
  • cluster模式
  • 参考

本地模式

现在的spark支持python3了,支持python2的版本已经很落后了,所以需要使用python3来弄,本地模式只要可以运行python xx.py,spark-submit就可以

spark-submit \
local [*] \
--conf spark.pyspark.python=/usr/bin/python3 \
--conf spark.pyspark.driver.python=/usr/bin/python3 \
xx.py

/usr/bin/python3 替换为本地python解释器绝对路径就行。

xx.py 所依赖的库什么的,直接就在本地装就可以了,如果是不联网机器,可以在有网络的环境里,把依赖的库下载好,再传到不联网机器安装就行。就是一个pip downloadpip install的操作。

client模式

client模式和cluster模式比较麻烦了,需要把所依赖的python环境上传,不推荐--py-files,太麻烦了,得弄多少zip包,用--archives这个参数就行,上传python环境,推荐用conda创建环境,然后再用conda打包就行。

就是考察对anaconda命令得熟悉。

conda create -y -n pyspark_conda_env -c conda-forge pyarrow pandas conda-pack
conda activate pyspark_conda_env
conda pack -f -o pyspark_conda_env.tar.gz

还需要把 pyspark_conda_env.tar.gz 给上传到hdfs上面。

hdfs dfs -put pyspark_conda_env.tar.gz /user/hadoop/data/

还有一点,需要把xx.py也上传

hdfs dfs -put xx.py /user/hadoop/data/

上传完了,需要在本地解压pyspark_conda_env.tar.gz,命令参数有用。

最后spark-submit如下

spark-submit \
--master yarn \
--deploy-mode client \
--archives 本地路径/pyspark_conda_env.tar.gz#environment
--conf spark.pyspark.python=./environment/bin/python \
--conf spark.pyspark.driver.python=本地解压路径/pyspark_conda_env/bin/python \
hdfs://user/hadoop/data/xx.py

其中要注意的是 #environment 的写法就可以把前面一长串给代表了,下面就可以用#后面的字符来代表了

--archives 本地路径/pyspark_conda_env.tar.gz#environment

cluster模式

只要跑通了client模式,cluster就简单多了,不用在本地解压pyspark_conda_env.tar.gz这个包了,就直接用了。

spark-submit \
--master yarn \
--deploy-mode cluster \
--archives 本地路径/pyspark_conda_env.tar.gz#environment
--conf spark.pyspark.python=./environment/bin/python \
hdfs://user/hadoop/data/xx.py

参考

在PySpark程序中使用Conda打包Python环境及第三方库
官网教程

相关文章:

  • 网页网络优化seo网络推广技术员招聘
  • 网站公司注册流程sem分析是什么
  • 网络营销的基本方式网站内部链接优化方法
  • 正规的郑州网站建设360优化大师app下载
  • 淄博 做网站博客
  • 企业做网站的多吗网络营销的类型
  • iwebsec靶场sqli注入(2)
  • 09-StarRocks安全配置FAQ
  • 行为验证码 AJ-Captcha 使用文档
  • 计算机网络第九章——数据链路层《介质访问控制》
  • CDN+OSS边缘加速实践:动态压缩+智能路由降低30%视频流量成本(含带宽峰值监控与告警配置)
  • SM4算法的Verilog流水线实现(带测试)
  • 最方便的应用构建——利用云原生快速搭建本地deepseek知识仓库
  • IoTDB的基本概念及常用命令
  • 内存泄漏系列专题分析之二十四:内存泄漏测试Camera相机进程内存指标分布report概述
  • 02-StarRocks数据导入导出FAQ
  • 猿人学js逆向比赛第一届第十二题
  • MemcacheRedis--缓存服务器理论
  • MR7350用TTL刷机救砖过程
  • 桌面小屏幕实战课程:DesktopScreen 8 非易失性存储器NVS
  • 安卓9.0系统修改定制化____安卓9.0修改 默认开启开发者选项与usb调试的操作步骤解析 十一
  • Vue项目使用defer优化页面白屏,性能优化提升,秒加载!!!
  • 大白话蓝牙中的RPC:Remote Procedure Call远程过程调用
  • 夏季小学期
  • DEYOLO 全面复现,将双增强跨模态目标检测网络 DEYOLO 融合到 YOLOFuse 框架
  • 微信小程序节点相关总结