当前位置: 首页 > news >正文

spark数据的提取和保存

Spark数据提取和保存

一、数据提取(读取数据)

 

1. 读取文件(文本、CSV、JSON等)

scala

// 读取文本文件

val textData = spark.read.text("路径/文件.txt")

// 读取CSV文件(带表头)

val csvData = spark.read

  .option("header", "true")

  .csv("路径/文件.csv")

// 读取JSON文件

val jsonData = spark.read.json("路径/文件.json")

 

2. 读取数据库(如MySQL)

scala

import spark.implicits._

val jdbcDF = spark.read.format("jdbc")

  .option("url", "jdbc:mysql://host:port/db")

  .option("dbtable", "表名")

  .option("user", "用户名")

  .option("password", "密码")

  .load()

 

 

3. 读取Hive表

scala

val hiveDF = spark.sql("SELECT * FROM hive表名")

 

二、数据保存(写入数据)

 

1. 保存为文件(文本、CSV、JSON等)

scala

// 保存为CSV文件(覆盖模式)

csvData.write.mode("overwrite").csv("路径/输出.csv")

// 保存为JSON文件(分区存储)

jsonData.write.partitionBy("字段").json("路径/输出.json")

 

2. 保存到数据库(如MySQL)

scala

jdbcDF.write.format("jdbc")

  .option("url", "jdbc:mysql://host:port/db")

  .option("dbtable", "表名")

  .option("user", "用户名")

  .option("password", "密码")

  .mode("append") // 追加模式

  .save()

 

3. 保存到Hive表

scala

hiveDF.write.saveAsTable("hive表名")

 

关键参数说明

-  mode :写入模式( overwrite 覆盖、 append 追加、 ignore 忽略已存在数据等)。

-  option :配置数据源参数(如表头、分隔符、数据库连接信息等)。

根据具体数据源类型选择对应格式( format ),如需处理非结构化数据(如图片、日志),可结合 binaryFile 或自定义解析逻辑。

相关文章:

  • MCP实战:在扣子空间用扣子工作流MCP,一句话生成儿童故事rap视频
  • Java虚拟机 - JVM与Java体系结构
  • 代码审计-php框架开发,实战tp项目,打击微交易,源码获取,扩大战果
  • C++学习:六个月从基础到就业——C++11/14:其他语言特性
  • c++总结-03-move
  • Debezium快照事件监听器系统设计
  • Flask-SQLAlchemy_数据库配置
  • 标准库、HAl库和LL库(PC13初始化)
  • 【Vue】路由1——路由的引入 以及 路由的传参
  • vue3大事件项目
  • JetBrains IDEA,Android Studio,WebStorm 等IDE 字体出现异常时解决方法
  • linux hungtask detect机制分析
  • 人工智能、机器学习、深度学习定义与联系
  • 如何使用 Apple 提供的 benchmark 工具
  • python读取图像,关于np、cv2、PIL不同图像类型的理解与转换
  • 玄机-第一章 应急响应-webshell查杀
  • Blender建小房子流程
  • 老旧设备升级利器:Modbus TCP转 Profinet让能效监控更智能
  • 6.2.3+6.2.4十字链表、邻接多重表
  • MongoDB的安装及简单使用
  • 国家统计局:1-4月份,全国固定资产投资同比增长4.0%
  • 上海明天短暂恢复晴热最高32℃,一大波雨水在候场
  • 种植耐旱作物、启动备用水源,甘肃各地多举措应对旱情
  • 网警打谣:传播涉刘国梁不实信息,2人被处罚
  • 一个留美学生的思想转向——裘毓麐的《游美闻见录》及其他
  • 流失79载,国宝文物“子弹库帛书”(二、三卷)回归祖国