当前位置: 首页 > news >正文

Zeppelin在spark环境导出dataframe

1.Zeppelin无法直接访问本地路径

如果zeppelin无法直接访问本地路径,可先将dataframe写到s3,在通过读取s3路径下载文件

%pyspark
# 示例:用 PySpark 处理数据
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])
df.show()
df.coalesce(1).write \.format("csv") \.option("delimiter", "\t") \.option("header", "true") \.mode("overwrite") \.save("s3://mob-emr-test/dataplatform/zeppelin/")

2.Zeppelin可直接访问本地路径

  需添加`file://` 前缀才能导出到本地

%pyspark
from pyspark.sql import SparkSession# 示例 DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])# 保存到本地(使用 coalesce(1) 合并成一个文件)
df.coalesce(1).write \.format("csv") \.option("delimiter", "\t") \.option("header", "true") \.mode("overwrite") \.save("file:///c:/user/tmp/pyspark_output")  # 注意 `file://` 前缀

http://www.dtcms.com/a/154784.html

相关文章:

  • pandas读取MySQL中的数据
  • Swift中Class和Struct的深度对比分析
  • 【C++基础知识】折叠表达式详解--结合上一篇
  • Qt ModbusSlave多线程实践总结
  • 基于STM32、HAL库的MCP3421A0T模数转换器ADC驱动程序设计
  • Axure全局变量的含义与基础应用
  • 百度搜索AI开放计划:助力开发者通过MCP Server连接用户和应用
  • Spring Cloud Gateway 如何将请求分发到各个服务
  • 【Harmony OS】组件
  • 从零开始学Python游戏编程39-碰撞处理1
  • ESP-ADF esp_dispatcher组件之dispatcher介绍
  • RK3288 5.10内核无法点亮LVDS显示
  • Chrmo手动同步数据
  • 【软件工程】TCP三次握手中的SYN与ACK:核心机制详解
  • Vue3 上传后的文件智能预览(实战体会)
  • 如何申请游戏支付平台通道接口?
  • (六)机器学习---聚类与K-means
  • Python CT图像预处理——基于ITK-SNAP
  • 【DRAM存储器五十一】LPDDR5介绍--DFE与Pre-Emphasis
  • ⭐Unity_Demolition Media Hap (播放Hap格式视频 超16K大分辨率视频 流畅播放以及帧同步解决方案)
  • Spring-Cache替换Keys为Scan—负优化?
  • HTMLCSS模板实现水滴动画效果
  • 再谈String
  • Python的库
  • 【25软考网工】第三章(4)生成树协议、广播风暴和MAC地址表震荡
  • MySQL表达式之公用表表达式(CTE)的使用示例
  • Windows与CasaOS跨平台文件同步:SyncThing本地部署与同步配置流程
  • springboot2.x升级到3.x 惨痛经验总结
  • 告别 “幻觉” 回答:RAG 中知识库与生成模型的 7 种对齐策略
  • 力扣-hot100(找到字符串中的所有字母异位词)