当前位置: 首页 > news >正文

Spark-Sql编程(三)

一、数据加载与保存

通用方式:使用spark.read.load和df.write.save,通过format指定数据格式(如csv、jdbc、json等),option设置特定参数(jdbc格式下的url、user等),load和save指定路径。保存时可通过mode设置SaveMode,如ErrorIfExists(默认,文件存在则抛异常)、Append(追加)、Overwrite(覆盖)、Ignore(忽略)。

Parquet:Spark SQL 默认数据源,是嵌套数据的列式存储格式。加载和保存无需format指定,可通过修改spark.sql.sources.default变更默认格式。

JSON:Spark SQL 能自动推测结构并加载为Dataset[Row],读取的 JSON 文件每行应为 JSON 串,可通过SparkSession.read.json加载。

CSV:可配置列表信息,如设置分隔符sep、推断模式inferSchema、指定表头header等。

MySQL:借助 JDBC 读取和写入数据。

1.读取数据

写入数据

二、Spark-SQL连接Hive

内嵌 Hive:可直接使用,但实际生产中很少用。

外部 Hive:

代码操作Hive

相关文章:

  • 计算机视觉——基于人工智能视觉注意力的在线广告中评估检测技术
  • 二进制求和 - 简单
  • 数据加载与保存
  • Ubuntu服务器中了木马且处于局域网内无法直接通过公网正向连接
  • Mac OS系统下kernel_task占用大量CPU资源导致系统卡顿
  • Linux:Makefile
  • 数字电子技术基础(四十七)——使用Mutlisim软件来模拟74LS85芯片
  • STM32基础教程——DMA+ADC多通道
  • 【后端】【python】利用反射器----动态设置装饰器
  • 智能语音处理+1.1下载需要的库(100%实现)
  • 【Lerobot】加载本地数据LeRobotDataset数据、读取并解析parquet
  • 【c语言】深入理解指针1
  • 排序(java)
  • 任务的状态
  • 投资理财_从0到1:如何用1000元开启你的二级市场投资之旅?
  • 实战5:Python使用循环神经网络生成诗歌
  • 解决virtualbox7.1无法启动3d加速的问题
  • 大数据人工智能
  • 算法的时间复杂度
  • L37.【LeetCode题解】三数之和(双指针思想)
  • 做团购网站需要注册哪些商标/代码优化
  • 电商网站建设考试题/seo什么意思简单来说
  • 校园网站开发的目的/培训网站模板
  • 网站打不开什么原因/seo外包上海
  • 应届生在淮北招的网站建设类型岗位/seo公司是做什么的
  • 网站上那些兼职网页怎么做/seo免费培训