当前位置：首页 > news >正文

spark数据处理练习题番外篇【下】

news 2025/9/25 13:08:01

12. (单选题)

spark-sql的优点（）

1 统一数据访问；2 包括具有行业标准JDBC和ODBC连接；3 对于交互式查询和长查询使用相同的引擎；4

经过Catalyst优化后的sparkSQL执行效率高于RDD；

A. 1，2，3，4
B. 1，2
C. 3，4
D. 2，3，4

正确答案:A:1，2，3，4;

让我们分析一下每个选项：

Spark SQL的主要优点包括：

统一数据访问 - √ 这是Spark SQL的重要优点，它提供了统一的方式来访问不同的数据源。
包括具有行业标准JDBC和ODBC连接 - √ 这确实是Spark SQL的优点，支持标准的数据库连接协议。
对于交互式查询和长查询使用相同的引擎 - √ Spark SQL使用同一个执行引擎处理不同类型的查询。
经过Catalyst优化后的sparkSQL执行效率高于RDD - √ 这是正确的，Catalyst优化器能够优化SQL查询，使其性能优于原生RDD操作。

综上所述，所有提到的特点都是Spark SQL的优点。

13. (单选题)

val conf=new SparkConf()

.setAppName("stream")

.setMaster("___________")

conf.set("spark.testing.memory","2147480000")

val stream1=new StreamingContext(conf,Seconds(____))

为了创建一个片段为5000毫秒离散数据流，请填空

A.local[5] 5000
B. local 5
C. local[4] 5
D. local[2] 5000

正确答案:C:local[4] 5;

local[4] 表示在本地模式下运行Spark，使用4个工作线程
5 表示5秒的批处理间隔

问题要求创建一个"片段为5000毫秒的离散数据流"。在Spark Streaming中，批处理间隔是以秒为单位的，所以5000毫秒等于5秒。

对于Master设置，local[n]中的n表示并行度，通常建议设置为至少比数据接收器数量多1，以避免接收数据和处理数据之间的资源竞争。

所以，正确的设置应该是使用local[n]（n至少为2）作为Master，以及5作为批处理间隔（表示5秒，即5000毫秒）。

14. (单选题)

val stream1=new StreamingContext(conf,Seconds(10))

val data=stream1.socketTextStream( "localhost" ,11111)

val data2=data.window(Seconds(__________),Seconds(__________))

data2为每10秒分析统计最近30秒的数据，请填空

A. 3000 1000
B. 30 10
C. 20 20
D. 10 10

正确答案:B:30 10;

让我分析这个问题：

首先理解问题要求：

每10秒分析一次数据（这是由stream1设置的批处理间隔决定的）
需要分析最近30秒的数据（这是窗口大小）
使用window函数，需要设置windowDuration和slideDuration

window函数的两个参数：

第一个参数是窗口长度(windowDuration)
第二个参数是滑动间隔(slideDuration)

具体分析：

要分析最近30秒的数据，所以windowDuration应该是30秒
每10秒分析一次，所以slideDuration应该是10秒
参数单位是秒（因为使用的是Seconds类）

检查选项：

A: 3000, 1000 （这是毫秒值，而且太大）
B: 30, 10 （这个符合要求：30秒窗口，10秒滑动）
C: 20, 20 （不符合要求）
D: 10, 10 （不符合要求）

15. (单选题)SparkStreaming是

A. 实时流处理，产生结果无延时
B. 离散流处理，产生结果无延时
C. 离散流处理，产生结果有延时
D. 实时流处理，产生结果有延时

正确答案:C:离散流处理，产生结果有延时;

让我解析为什么C是正确答案：

C是正确答案的原因：

离散流处理：

Spark Streaming采用"微批处理"模式
将实时数据流分割成小的时间片段（批次）
每个批次作为一个RDD进行处理
本质上是将流处理转换为一系列小规模的批处理

产生结果有延时：

由于采用微批处理模式，需要等待每个批次数据收集完成
处理过程需要时间
批次间隔（如每5秒一个批次）本身就会导致延迟
结果产生会有固定的延迟时间

为什么其他选项错误：

A错误：

不是实时处理，而是离散批处理
不可能无延时，必然存在处理延迟

B错误：

虽然是离散流处理正确
但说无延时是错误的

D错误：

不是实时流处理，而是离散流处理
虽然有延时是对的，但第一个条件错误

因此，Spark Streaming的本质特征是离散流处理（微批处理），且因为处理模式的特点必然存在延时，

16. (单选题)

关于SparkStreaming说法正确的是（）

1 应用场合为企业全数据处理；2 应用场合为企业增量数据处理；3 必须在下一块增量数据到达前，处理完当前增量数据；

A. 1，2 ，3
B. 2 ， 3
C. 1 ，3
D. 1

正确答案:B:2 ， 3;

分析原因：

"应用场合为企业增量数据处理" - 正确

SparkStreaming主要用于处理实时产生的增量数据
适合处理持续不断产生的数据流
常见场景如：日志分析、实时监控、用户行为分析等

"必须在下一块增量数据到达前，处理完当前增量数据" - 正确

这是SparkStreaming的基本工作原理
如果当前批次未处理完，会影响下一批次的处理
避免数据积压和处理延迟

"应用场合为企业全数据处理" - 错误

SparkStreaming不适合处理全量数据
全量数据处理应该使用Spark Core或SparkSQL
SparkStreaming专注于流式数据处理

所以：

选项B（2，3）是正确的
包含选项1的A、C、D都是错误的
SparkStreaming的核心特点是增量数据处理而非全量数据处理

17. (单选题)

spark-sql读取多行json文件，请填空()

var df1=spark.read

.option("multiline",________)

.________("f:/worker.json")

.toDF()

A.
false

textFile
B.
true

json
C.
header

textFile
D.
header=true

json

正确答案:B:true json;

问题要求使用spark-sql读取多行json文件，需要填写两个空白处。

分析各选项：

A. false, textFile

"multiline"选项设为false表示每行是单独的JSON对象
textFile方法读取的是纯文本文件，不会解析JSON结构

B. true, json

"multiline"选项设为true表示允许一个JSON对象跨多行
json方法专门用于读取和解析JSON格式文件

C. header, textFile

"header"选项用于CSV文件，不适用于JSON
textFile方法不会解析JSON结构

D. header=true, json

"header=true"是CSV文件的选项，不适用于JSON
格式也不对，应该是.option("header", "true")

正确答案是 B. true, json

因为：

多行JSON文件需要设置multiline=true，否则会解析错误
读取JSON文件应该使用json()方法，而不是textFile()
这样Spark才能正确解析跨多行的JSON对象

18. (单选题)

对score视图中3列（Java,c,python）完成求平均分，数据列别名设为pjf,并展示name和pjf的sql语句

select _________________ from __________

A.
(java+c+python)/3

score
B.
name,(java+c+python)/3 as pjf

scoreview
C.
name,(java+c+python)/3 as pjf

score
D.
name,(java+c+python)/3 as pjf

view

正确答案:C:name,(java+c+python)/3 as pjf score ;

让我分析这个SQL填空题：

题目要求：

从score视图中选择数据
计算Java、C和Python三列的平均分
将平均分列命名为"pjf"
同时显示name列和平均分列

分析各选项：

A. (java+c+python)/3 和 score

只选择了平均分，没有包含name列
没有给平均分设置别名pjf
表名可能正确，但缺少了视图的完整名称

B. name,(java+c+python)/3 as pjf 和 scoreview

选择了name列和平均分，并正确设置了别名pjf
但表名是scoreview，题目说的是score视图

C. name,(java+c+python)/3 as pjf 和 score

选择了name列和平均分，并正确设置了别名pjf
表名是score，与题目描述一致

D. name,(java+c+python)/3 as pjf 和 view

选择了name列和平均分，并正确设置了别名pjf
但表名是view，这不是一个有效的表名

19. (单选题)

数据前三行如下：

name,course,score

tom,java,90

mike,java,80

tom,c,70

求每门课及选课人数的spark-sql语句是（）

select ______________ from view1 ___________ course

A.
course,count(course)

group by
B.
course,count(course)

order by
C.
course,count(name)

group by
D.
course,sum(course)

groupbykey

正确答案:A:course,count(course) group by;

让我分析这个SQL查询题：

数据特点：

包含name（学生姓名）、course（课程）和score（分数）三列
同一个学生可能选多门课
需要统计每门课的选课人数

分析各选项：

A. course,count(course) group by course

使用count(course)会统计课程名称的出现次数，这是正确的
group by course正确地按课程分组
这是可行的方案

B. course,count(course) order by course

order by只是排序，不能实现分组统计
不能得到每门课的选课人数

C. course,count(name) group by course

count(name)统计每组中学生名字的出现次数
group by course正确地按课程分组
这是最准确的答案

D. course,sum(course) groupbykey

sum(course)不适合统计人数
groupbykey不是SQL语法，是RDD操作
完全错误的语法

20. (单选题)

数据前4行如下：
name,course,score
tom,java,90
mike,java,80
jerry,c,60
tom,c,70

使用spark-core读取数据并map为科目与分数(整数类型)的元组集合（）

var line=sc.textFile("f:/datas/scores.txt")

A. var rdd1=line.map(_.split(",")).map(x=>(x(0),x(2).toInt))
B. var rdd1=line.map(_.split(",")).map(x=>(x(0),x(1),x(2)))
C. var rdd1=line.map(_.split(",")).map(x=>(x(1),x(2).toInt))
D. var rdd1=line.map(_.split(",")).map(x=>(x(0),x(1),x(2).toInt))

正确答案:C:var rdd1=line.map(_.split(",")).map(x=>(x(1),x(2).toInt));

让我分析这道题：

题目要求：

使用spark-core读取数据
需要将数据转换为(科目, 分数)的元组
分数需要转换为整数类型
科目在原数据中是第2列(course)，分数是第3列(score)

分析各选项：

A. map(x=>(x(0),x(2).toInt))

取第1列(name)和第3列(score)
不符合要求，应该取course而不是name

B. map(x=>(x(0),x(1),x(2)))

生成三元组，包含所有列
没有将分数转换为整数类型
不符合要求

C. map(x=>(x(1),x(2).toInt))

取第2列(course)和第3列(score)
将分数转换为整数类型
完全符合要求

D. map(x=>(x(0),x(1),x(2).toInt))

生成三元组，包含所有列
虽然将分数转换为整数，但返回三元组不符合要求

正确答案是 C：var rdd1=line.map(_.split(",")).map(x=>(x(1),x(2).toInt))

原因：

map(_.split(","))将每行文本分割成数组
map(x=>(x(1),x(2).toInt))创建(科目,分数)的二元组
x(1)获取科目(course)
x(2).toInt将分数转换为整数类型
最终得到的是符合要求的(科目,分数)元组RDD

21. (单选题)

数据前4行如下：
name,course,score
tom,java,90
mike,java,80
jerry,c,60
tom,c,70
使用spark-core读取数据,筛选tom的数据，并map为name与分数(整数类型)的元组集合（）
var line=sc.textFile("f:/datas/scores.txt")
var rdd1=line.map(_.split(",")).map(x=>(x(0),x(1),x(2).toInt))