当前位置: 首页 > news >正文

spark组件-spark sql-读取数据

支持的数据源类型

Spark SQL 内置支持丰富的数据格式和外部系统,核心数据源包括:

‌列式存储‌:Parquet(默认格式)、ORC
‌文本格式‌:JSON、CSV、TXT
‌关系数据库‌:通过 JDBC 连接 MySQL、PostgreSQL 等
‌大数据生态‌:Hive 表、HDFS 文件
其他来源‌:Avro、XML(通常需要额外库)
每种数据源在性能上有显著差异,例如 Parquet 采用列式存储,在分析型查询中性能最优。

例子

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;public class a_SparkSql_Env {public static void main(String[] args) {SparkSession sparkSession = SparkSession.builder().master("local").appName("sparksql").getOrCreate();Dataset<Row> json = sparkSession.read().option("spark.sql.adaptive.enabled",true).json("input/user.json");json.createOrReplaceTempView("user");json.select("age").show();//        String sql = "select age from user";
//        Dataset<Row> df = sparkSession.sql(sql);//        df.show();sparkSession.close();}
}

更多例子参见官网:spark sql数据源

配置优化策略‌:

‌并行度调整‌:设置 spark.sql.shuffle.partitions 优化 shuffle 性能
内存缓存‌:对频繁访问的表使用 spark.catalog.cacheTable() 或 dataFrame.cache()
数据源特定优化‌:如 Parquet 的谓词下推、ORC 的索引使用

读取性能调优技巧‌:

启用 spark.sql.adaptive.enabled=true 实现自适应查询执行
设置 spark.sql.files.maxPartitionBytes 控制分区大小
使用 spark.sql.autoBroadcastJoinThreshold 优化小表广播

http://www.dtcms.com/a/516334.html

相关文章:

  • 网站开发大致需要哪些步骤可视化开发工具推荐
  • zabbix实现配置监控Windows设备、SNMP协议设备的全流程实操教程
  • 天津做网站找哪家公司好建设网站公司哪里好相关的热搜问题解决方案
  • 友情链接价格seo官网制作规划
  • 桦甸市城乡建设局网站技术外包网站
  • 英文网站设计网络广告策划方案怎么做
  • go前后端项目的启动 、打包和部署
  • redis三主三从集群升级6.2.20, 保留数据
  • 导入部署天机AI助手智能体的全流程(详细图解,包含导入虚拟机后无法ping通百度的解决办法)
  • 物联网运维中的容器化服务部署与弹性扩展技术
  • cms建站程序免费个人网站建站能上传视频吗
  • 「用Python来学微积分」8. 极限的概念
  • GJOI 10.17/10.18 题解
  • CAN总线的物联网桥梁:以太网网关如何赋能工业4.0
  • C语言需要掌握的基础知识点之递归
  • 建设网站学什么wordpress zip格式
  • RFSoC在射频阵列信号采集分析中的应用
  • [Agent可视化] 会话管理 | Redis缓存 | PostgreSQL持久化 | 智能上下文处理
  • [Agent可视化] 编排工作流(Go) | Temporal引擎 | DAG调度器 | ReAct模式实现
  • 自定义时间服务器主机的时间通过ntp.aliyun.com主机同步时间
  • 做移动端网站设计做交通事故的网站
  • 【论文精读】EvalCrafter:文本到视频生成模型的全面评测框架
  • 普林尼与LLM提示词注入:AI安全防线的隐秘挑战
  • 撰写标书很难吗?用AI标书工具写标书,快速输出优质投标方案
  • HTML 实体起始符号详解
  • 什么网站可以做二建的题目贵州安顺建设主管部门网站
  • 海南美容网站建设旅游网站建设的总结
  • 通过npm run XXX命令生成uniapp的pages.json文件
  • HTML教程——1,css
  • H5响应式网站数据app外包公司推荐