当前位置: 首页 > news >正文

一些sparksql的面试题

1、sparkCore读取数据的方式

SparkCore 读取数据主要依靠 SparkContext 创建 RDD,具体方式有几种。
一是 textFile() 方法,最常用,用来读文本文件,比如从 HDFS 或本地系统读,按行处理。
二是 wholeTextFiles(),适合读取一堆小文件,它会返回(文件名, 文件内容)这种格式。
三是 sequenceFile(),专门用来读 Hadoop 的 SequenceFile 格式。
四是 parallelize(),主要用在测试里,把程序里的一个集合(比如 List)变成 RDD 来用。
所以总结来看,SparkCore 提供了从文件系统、Hadoop兼容系统以及内存集合创建 RDD 的多种途径。

2、sparkSQL读取数据的方式

SparkSQL 读取数据主要通过 SparkSession 的 read API,拿回来的是 DataFrame 或 Dataset。
核心方式是 read.format("格式").load("路径"),这里的格式可以是 jsoncsvparquetorc 这些。
为了方便,也提供了直接的方法,比如 read.json()read.parquet()
另外就是读关系型数据库,用 read.jdbc(),可以连 MySQL 这些;读 Hive 表直接用 spark.sql("select * from table") 或者 read.table("table_name")
所以 SparkSQL 的读取方式更声明式,统一并且能利用 Catalyst 优化器。

3、hive中数据的来源

Hive 里的数据来源,我们主要分两部分看。
一是元数据,它存在像 MySQL 这样的独立数据库里,记录的是表结构、分区信息这些。
二是原始数据本身,对于内部表,数据默认存在 HDFS 的 /user/hive/warehouse 目录下;对于外部表,数据可以存在 HDFS、S3 等任何指定位置,Hive 只管理元数据。
数据怎么来的呢?主要是通过 LOAD DATA 命令把文件加载进去,或者通过 INSERT INTO 语句(背后可能是 MapReduce、Spark 引擎)计算产生,再就是建外部表时直接指向数据所在的已有位置。
所以,Hive 本身不产生数据,它主要管理和描述存储在别处的数据。

http://www.dtcms.com/a/565541.html

相关文章:

  • 数据结构(17)
  • 企业级 SaaS 服务 AI 优化全解析:从线索获取到续约的 7 个核心策略
  • MAC-SQL论文 总结
  • 网站挂马怎么处理网站的域名证书
  • 网站关键词优化的方法icp备案网站接入信息ip地址段
  • 高站网站建设网站权重有时降
  • 【Unity】MMORPG游戏开发(八)状态同步与基础战斗模块(上)
  • 最好的大模型训练、微调教程.pdf
  • JAVA算法练习题day61
  • 【IC】NoC设计入门 -- 队头阻塞 (Head-of-Line Blocking)
  • 产品设计可视化解决方案
  • 数据结构(16)
  • 网站建站行业兰州网络推广新手
  • 怎样将自己做的网页加入网站南京品牌网站建设
  • 前端工具全景实战指南,从开发到调试的效率闭环
  • Nxt v1.13.1:标志性更新为12年历史的区块链项目写下新篇章
  • C++ 学习 —— 04 - STL容器
  • 什么是端口管理?网络安全的关键环节
  • 竞品网站分析温州企业网站制作
  • Apache Paimon 写入流程
  • 如何设计一个秒杀系统(下)
  • 投资网站策划晋江市建设局网站
  • 博客阅读:chatgpt 2025 GPT-5 Jailbreak with Echo Chamber and Storytelling
  • 经典模板网站建设wordpress函数讲解
  • HTTP协议与WebSocket完整技术指南
  • 时序数据库核心技术解析-以InfluxDB/TSDB为例
  • 各大网站收录入口ASP.NET与网站开发编程实战
  • 招聘网站建设与开发要求typecho转wordpress
  • 专为严苛环境而生:高防护等级工业防水平板WPPC-H1520T(P)
  • 网站建设销售培训好网站的标准