spark组件-spark core(批处理)-rdd行动算子(action)
Spark RDD的行动算子用于触发实际计算并返回结果到驱动程序或保存到外部存储系统。与转换算子的惰性执行不同,行动算子会立即执行并提交作业。
常用的RDD行动算子
数据收集类算子
- collect():将RDD中所有元素以数组形式收集到Driver端内存中
JavaRDD<Integer> integerJavaRDD = sc.parallelize(Arrays.asList(1, 2, 3, 4), 2);integerJavaRDD.collect().forEach(System.out::println);
- first():返回RDD中的第一个元素
JavaRDD<Integer> integerJavaRDD = sc.parallelize(Arrays.asList(1, 2, 3, 4), 2);Integer first = integerJavaRDD.first();
- take(n):获取RDD前n个元素组成的数组
JavaRDD<Integer> integerJavaRDD = sc.parallelize(A