当前位置：首页 > news >正文

spark数据的提取和保存

news 2025/7/4 19:55:25

Spark数据提取和保存

一、数据提取（读取数据）

1. 读取文件（文本、CSV、JSON等）

scala

// 读取文本文件

val textData = spark.read.text("路径/文件.txt")

// 读取CSV文件（带表头）

val csvData = spark.read

.option("header", "true")

.csv("路径/文件.csv")

// 读取JSON文件

val jsonData = spark.read.json("路径/文件.json")

2. 读取数据库（如MySQL）

scala

import spark.implicits._

val jdbcDF = spark.read.format("jdbc")

.option("url", "jdbc:mysql://host:port/db")

.option("dbtable", "表名")

.option("user", "用户名")

.option("password", "密码")

.load()

3. 读取Hive表

scala

val hiveDF = spark.sql("SELECT * FROM hive表名")

二、数据保存（写入数据）

1. 保存为文件（文本、CSV、JSON等）

scala

// 保存为CSV文件（覆盖模式）

csvData.write.mode("overwrite").csv("路径/输出.csv")

// 保存为JSON文件（分区存储）

jsonData.write.partitionBy("字段").json("路径/输出.json")

2. 保存到数据库（如MySQL）

scala

jdbcDF.write.format("jdbc")

.option("url", "jdbc:mysql://host:port/db")

.option("dbtable", "表名")

.option("user", "用户名")

.option("password", "密码")

.mode("append") // 追加模式

.save()

3. 保存到Hive表

scala

hiveDF.write.saveAsTable("hive表名")

关键参数说明

- mode ：写入模式（ overwrite 覆盖、 append 追加、 ignore 忽略已存在数据等）。

- option ：配置数据源参数（如表头、分隔符、数据库连接信息等）。

根据具体数据源类型选择对应格式（ format ），如需处理非结构化数据（如图片、日志），可结合 binaryFile 或自定义解析逻辑。

http://www.dtcms.com/a/197724.html

相关文章：

MCP实战：在扣子空间用扣子工作流MCP，一句话生成儿童故事rap视频

Java虚拟机 - JVM与Java体系结构

代码审计-php框架开发，实战tp项目，打击微交易，源码获取，扩大战果

C++学习：六个月从基础到就业——C++11/14：其他语言特性

c++总结-03-move

Debezium快照事件监听器系统设计

Flask-SQLAlchemy_数据库配置

标准库、HAl库和LL库（PC13初始化）

【Vue】路由1——路由的引入以及路由的传参

vue3大事件项目

JetBrains IDEA,Android Studio,WebStorm 等IDE 字体出现异常时解决方法

linux hungtask detect机制分析

人工智能、机器学习、深度学习定义与联系

如何使用 Apple 提供的 benchmark 工具

python读取图像，关于np、cv2、PIL不同图像类型的理解与转换

玄机-第一章应急响应-webshell查杀

Blender建小房子流程

老旧设备升级利器：Modbus TCP转 Profinet让能效监控更智能

6.2.3+6.2.4十字链表、邻接多重表

MongoDB的安装及简单使用

【机器学习】工具入门：飞牛启动Dify Ollama Deepseek

包装设备跨系统兼容：Profinet转Modbus TCP的热收缩包装机改造方案

深入理解Docker和K8S

HarmonyOS 影视应用APP开发--配套的后台服务go-imovie项目介绍及使用

【iOS（swift）笔记-9】WKWebView无法访问网络

【SpringBoot】✈️整合飞书群机器人发送消息

Socket.IO是什么？适用哪些场景？

Flink的时间问题

微软将于 8 月 11 日关闭 Bing Search API 服务

二叉树构造：从前序、中序与后序遍历序列入手