当前位置: 首页 > news >正文

spark-SQL数据加载和保存

数据加载与保存

通用方式:

       通过 spark.read.load 和 df.write.save 实现数据加载与保存。可利用 format 指定数据格式,如 csv 、 jdbc 等; option 用于设置特定参数,像 jdbc 格式下的数据库连接信息; load 和 save 则分别指定数据路径。保存时还能使用 SaveMode 包含 ErrorIfExists 、 Append 、 Overwrite 、 Ignore 等模式 。

Parquet:

      作为默认数据源,Parquet是列式存储格式,适合存储嵌套数据。加载和保存数据时,若为Parquet文件,无需指定 format ,按默认方式操作即可。

JSON:

      Spark SQL可自动推测JSON数据集结构,加载为 Dataset[Row] 。但要求JSON文件每行是一个JSON串,通过 spark.read.json() 加载 。

CSV:

      读取CSV文件时,可配置列表信息,如设置分隔符、推断数据类型、指定表头,使用 format("csv") 结合 option 设置相关参数。

- MySQL:

     借助JDBC,Spark SQL能从MySQL读取数据创建 DataFrame ,计算后也可写回。操作前需导入 mysql-connector-java 依赖,按特定语法编写代码实现数据读写。

代码案例

导入依赖

 

 

 

 

Spark-SQL连接Hive

内嵌Hive:

使用Spark内嵌Hive无需额外配置,可直接使用,但实际生产中较少采用。

外部Hive:

在spark-shell中连接外部Hive,需将 hive-site.xml 拷贝到 conf/ 目录并修改连接地址,把MySQL驱动复制到 jars/ 目录,拷贝 core-site.xml 和 hdfs-site.xml 到 conf/ 目录,最后重启 spark-shell 。- Spark beeline:Spark Thrift Server兼容HiveServer2,部署后可用beeline访问。连接步骤与连接外部Hive类似,需配置相关文件并启动Thrift Server,再用 beeline -u jdbc:hive2://node01:10000 -n root 连接 。- Spark-SQL CLI:在Spark目录下,将MySQL驱动放入 jars/ , hive-site.xml 放入 conf/ ,运行 bin/ 目录下的 spark-sql.cmd 即可启动,能直接执行SQL语句。

代码操作Hive:

先导入 spark-hive_2.12 和 hive-exec依赖,将hive-site.xml拷贝到resources目录中,在代码中启用hive支持

代码案例

导入依赖

 

 

相关文章:

  • Redis清空缓存
  • 【解析】ReentrantLock锁、Syschronized锁面试点解析
  • 数启新疆,智领未来!2025新疆数字经济发展战略研讨会在乌市启幕
  • go学习记录(第二天)
  • unityTEngine 框架学习记录1
  • OpenCv高阶(四)——角点检测
  • 充电宝项目中的MQTT(轻量高效的物联网通信协议)
  • Sherpa简介
  • 公务员体检肌酐临界值处理指南
  • 比特率、码元速率(波特率)的定义、关系及相关计算公式
  • 代码随想录算法训练营day5(哈希表)
  • 【Python进阶】字典:高效键值存储的十大核心应用
  • Web开发-JavaEE应用原生和FastJson反序列化URLDNS链JDBC链Gadget手搓
  • 构件技术(高软58)
  • 永磁同步电机控制中,滑模观测器是基于反电动势观测转子速度和角度的?扩展卡尔曼滤波观测器是基于什么观测的?扩展卡尔曼滤波观测器也是基于反电动势吗?
  • 高防CDN、高防IP vs 高防服务器:核心优势与选型指南
  • spring:注解@Component、@Controller、@Service、@Reponsitory
  • 【实施运维】在谷歌浏览器离线安装360浏览器插件
  • C++指针和引用之区别(The Difference between C++Pointers and References)
  • mcp和API区别
  • 购物网站前台功能模块/百度搜索广告
  • 2018做网站开发一个月工资多少/百度网盘官方网站
  • 政府网站html模板/百度网站客服
  • 工信部网站备案批准文件/软文范例大全500字
  • 苏州新区网站制作/seo数据优化教程
  • 做设计图的网站/重庆关键词排名首页