PySpark数据输出
数据输出
输出为Python对象
掌握将RDD的结果输出为Python对象的各类方法
collect算子
功能:将RDD各个分区内的数据,统一收集到Driver中,形成一个List对象
用法:
rdd.collect()
返回值是一个list
reduce算子
功能:对RDD数据集按照你传入的逻辑进行聚合
# 语法
rdd.reduce(func)# func:(T,T) -> T
# 2参数传入 1个返回值,返回值和参数要求类型一致"""
代码举例
"""
rdd = sc.parallelize(range(1,10))
# 将rdd的数据进行累加求和
print(rdd.reduce(lambda a, b: a + b))# 返回值等同于计算函数的返回值
take算子
功能:取RDD的前N个元素,组合成list返回给你
# take算子的用法
sc.parallelize([3,2,1,4,5,6]).take(5)# 结果:[3,2,1,4,5]
count算子
功能:计算RDD有多少条数据,返回值是一个数字
# count算子的用法
sc.parallelize([3,2,1,4,5,