当前位置: 首页 > news >正文

spark core编程之行动算子、累加器、广播变量

一、RDD 行动算子

reduce:聚集 RDD 所有元素,先聚合分区内数据,再聚合分区间数据。

collect:在驱动程序中以数组形式返回数据集所有元素。

foreach:分布式遍历 RDD 元素并调用指定函数。

count:返回 RDD 中元素个数。

first:返回 RDD 中第一个元素。

take:返回 RDD 前 n 个元素组成的数组。

takeOrdered:返回 RDD 排序后的前 n 个元素组成的数组。

aggregate:分区数据通过初始值和分区内数据聚合,再和初始值进行分区间聚合

fold:折叠操作,是 aggregate 的简化版

countByKey:统计每种 key 的个数。

save 相关算子:将数据保存到不同格式文件

二、累加器

    聚合 Executor 端变量信息到 Driver 端。在 Driver 程序中定义的变量,在

    Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。

    自定义累加器实现 wordcount:先创建自定义累加器类,再调用注册使用

    三、广播变量

    高效分发较大只读对象,向所有工作节点发送一个较大的只读值,以供一个或多个 Spark 操作使用

    相关文章:

  • 在51单片机上实现平滑呼吸灯:50us定时器PWM实战指南
  • Shell脚本提交Spark任务简单案例
  • Java基础 4.12
  • 《jQuery EasyUI 插件》
  • Linux基础5
  • 【数据结构与算法】ArrayList 和 顺序表
  • Python进阶(3):函数(接上篇)
  • Linux基础8
  • Linux磁盘大师:存储管理完全指南
  • Redis 哨兵模式 搭建
  • PDF 转换为 Word、HTML、LaTeX 和 Markdown 格式
  • TDengine 语言连接器(C/C++)
  • 智能手机功耗测试
  • jxls2.10实现模板导出/单元格合并/自定义标签实现单元格隐藏
  • 为什么ASCII的A是65[特殊字符]
  • NET模式下如何配置虚拟机的IP地址为静态的
  • 在Ubuntu 22.04里使用KVM创建虚拟机Ubuntu 22.04
  • 【源码】Mybatis源码
  • 图片文本识别OCR+DeepSeekapi实现提取图片关键信息
  • Linux权限理解
  • 鹤壁哪有做网站的/360网站排名优化
  • win2003 做网站服务器/如何查询百度收录情况
  • asp+php+jsp网站开发/网络建站公司
  • 视频网站app怎么做/短信广告投放软件
  • 手机微信官方网站/快速排名推荐
  • p2网站模板/郑州竞价托管公司哪家好