当前位置：首页 > news >正文

Spark-Sql编程（三）

news 2025/11/7 20:00:11

一、数据加载与保存

通用方式：使用spark.read.load和df.write.save，通过format指定数据格式（如csv、jdbc、json等），option设置特定参数（jdbc格式下的url、user等），load和save指定路径。保存时可通过mode设置SaveMode，如ErrorIfExists（默认，文件存在则抛异常）、Append（追加）、Overwrite（覆盖）、Ignore（忽略）。

Parquet：Spark SQL 默认数据源，是嵌套数据的列式存储格式。加载和保存无需format指定，可通过修改spark.sql.sources.default变更默认格式。

JSON：Spark SQL 能自动推测结构并加载为Dataset[Row]，读取的 JSON 文件每行应为 JSON 串，可通过SparkSession.read.json加载。

CSV：可配置列表信息，如设置分隔符sep、推断模式inferSchema、指定表头header等。

MySQL：借助 JDBC 读取和写入数据。

1.读取数据

写入数据

二、Spark-SQL连接Hive

内嵌 Hive：可直接使用，但实际生产中很少用。

外部 Hive：

代码操作Hive

http://www.dtcms.com/a/136389.html

相关文章：

计算机视觉——基于人工智能视觉注意力的在线广告中评估检测技术

二进制求和 - 简单

数据加载与保存

Ubuntu服务器中了木马且处于局域网内无法直接通过公网正向连接

Mac OS系统下kernel_task占用大量CPU资源导致系统卡顿

Linux:Makefile

数字电子技术基础（四十七）——使用Mutlisim软件来模拟74LS85芯片

STM32基础教程——DMA+ADC多通道

【后端】【python】利用反射器----动态设置装饰器

智能语音处理+1.1下载需要的库(100%实现)

【Lerobot】加载本地数据LeRobotDataset数据、读取并解析parquet

【c语言】深入理解指针1

排序（java）

任务的状态

投资理财_从0到1：如何用1000元开启你的二级市场投资之旅？

实战5：Python使用循环神经网络生成诗歌

解决virtualbox7.1无法启动3d加速的问题

大数据人工智能

算法的时间复杂度

L37.【LeetCode题解】三数之和(双指针思想)

Java练习——day2(集合嵌套)

Nginx：轻量级高性能的Web服务器与反向代理服务器

开源推荐#6：可爱的临时邮箱服务

模型提示词

Ubuntu源码制作openssh 9.9p2 deb二进制包修复安全漏洞 —— 筑梦之路

基于.NET后端实现图片搜索图片库核心是计算上传图片与库中图片的特征向量相似度并排序展示结果

[Jenkins]pnpm install ‘pnpm‘ 不是内部或外部命令，也不是可运行的程序或批处理文件。

Harmonyos-Navigation路由跳转

ios app的ipa文件提交最简单的方法

论文阅读笔记：Generative Modeling by Estimating Gradients of the Data Distribution