当前位置: 首页 > news >正文

SparkSession介绍

一、 介绍

  1. SparkSession是Spark 2.0中引入的新概念,它是Spark SQL、DataFrame和Dataset API的入口点,是Spark编程的统一API,也可看作是读取数据的统一入口;
  2. 它将以前的SparkContext、SQLContext和HiveContext组合在一起,使得用户可以在一个统一的接口下使用Spark的所有功能。
  3. 需要注意的是,SparkSession是一个重量级的对象,创建和销毁的代价较高,因此在项目中应该尽可能地重用同一个SparkSession对象。
  4. 在I/O期间,在构建器中设置的配置项将自动同步到Spark和Hadoop。

二、如何使用

# 在项目中初始化SparkSession,可以按照以下步骤进行:
# 1、导入必要的包:
import org.apache.spark.sql.SparkSession
# 2、创建SparkSession对象:
val spark = SparkSession
      .builder  # 使用builder()方法创建一个SparkSession.Builder对象,构建器将自动重用现有的SparkSession;如果不存在则会创建一个SparkSession
      .appName("xxx")
      .config("hive.exec.dynamic.partition", "true")  # 设置分区
      .config("hive.exec.dynamic.partition.mode", "nonstrict") # 设置hive是动态写入的方式
      .config("spark.sql.broadcastTimeout", 3000)
      .config("spark.sql.sources.partitionOverwriteMode", "dynamic")  # 设置hive动态写分区
      .config("spark.checkpoint.dir", "/user/vc/projects_prod/checkpoint/data")  # 设置checkpoint的路径
      .enableHiveSupport()
      .getOrCreate()

# 3、使用SparkSession对象进行数据操作:
val df = spark.read.json("path/to/json/file")
df.show()

三、sparkSession的配置参数参考
https://blog.csdn.net/u010569893/article/details/111356664

相关文章:

  • mysql 性能参数调优详解
  • 随便问问webtab的记录(1)
  • HTML网站稳定性状态监控平台源码
  • Log4j2.xml不生效:WARN StatusLogger Multiple logging implementations found:
  • 【C++初阶】STL详解(五)List的介绍与使用
  • Java核心知识点整理大全9-笔记
  • 【计算机网络】(网络层)定长掩码和变长掩码
  • 华为云cce健康检查有什么用?配置需要注意什么?
  • Spark的通用运行流程与Spark YARN Cluster 模式的运行流程
  • Vue使用基本教程(基本介绍及对比,初步使用,构建项目,编辑器等)
  • 探究Kafka原理-1.初识Kafka
  • AI原生应用为百度带来新增量
  • 如何使用Mondo Rescue备份及恢复Linux系统(制作ISO镜像,成功恢复)
  • Android扫码ZXing
  • msvcp71.dll,msvcr71.dll丢失怎么办?教你如何快速解决此问题
  • webpack external 详解
  • Twincat使用:EtherCAT通信扫描硬件设备链接PLC变量
  • Python Opencv实践 - 二维码和条形码识别
  • 模拟shell小程序
  • 【Linux】共享内存
  • 专访|导演刘江:给谍战题材注入现实主义的魂
  • 食用城市|食饭识人
  • 金俊峰已跨区任上海金山区委副书记
  • 这些网红果蔬正在收割你的钱包,营养师:吃了个寂寞
  • 上海杨浦:优秀“博主”购房最高可获200万补贴
  • 河南省省长王凯在郑州调研促消费工作,走访蜜雪冰城总部