当前位置: 首页 > news >正文

spark core编程之行动算子、累加器、广播变量

一、RDD 行动算子

reduce:聚集 RDD 所有元素,先聚合分区内数据,再聚合分区间数据。

collect:在驱动程序中以数组形式返回数据集所有元素。

foreach:分布式遍历 RDD 元素并调用指定函数。

count:返回 RDD 中元素个数。

first:返回 RDD 中第一个元素。

take:返回 RDD 前 n 个元素组成的数组。

takeOrdered:返回 RDD 排序后的前 n 个元素组成的数组。

aggregate:分区数据通过初始值和分区内数据聚合,再和初始值进行分区间聚合

fold:折叠操作,是 aggregate 的简化版

countByKey:统计每种 key 的个数。

save 相关算子:将数据保存到不同格式文件

二、累加器

    聚合 Executor 端变量信息到 Driver 端。在 Driver 程序中定义的变量,在

    Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。

    自定义累加器实现 wordcount:先创建自定义累加器类,再调用注册使用

    三、广播变量

    高效分发较大只读对象,向所有工作节点发送一个较大的只读值,以供一个或多个 Spark 操作使用

    http://www.dtcms.com/a/129011.html

    相关文章:

  • 在51单片机上实现平滑呼吸灯:50us定时器PWM实战指南
  • Shell脚本提交Spark任务简单案例
  • Java基础 4.12
  • 《jQuery EasyUI 插件》
  • Linux基础5
  • 【数据结构与算法】ArrayList 和 顺序表
  • Python进阶(3):函数(接上篇)
  • Linux基础8
  • Linux磁盘大师:存储管理完全指南
  • Redis 哨兵模式 搭建
  • PDF 转换为 Word、HTML、LaTeX 和 Markdown 格式
  • TDengine 语言连接器(C/C++)
  • 智能手机功耗测试
  • jxls2.10实现模板导出/单元格合并/自定义标签实现单元格隐藏
  • 为什么ASCII的A是65[特殊字符]
  • NET模式下如何配置虚拟机的IP地址为静态的
  • 在Ubuntu 22.04里使用KVM创建虚拟机Ubuntu 22.04
  • 【源码】Mybatis源码
  • 图片文本识别OCR+DeepSeekapi实现提取图片关键信息
  • Linux权限理解
  • [IEEE TIP 2024](cv即插即用模块分享)IdeNet信息增强模块 性能提升必备!
  • 如何用海伦公式快速判断点在直线的哪一侧
  • MCP(模型上下文协议)简单案例
  • XILINX DDR3专题---(1)IP核时钟框架介绍
  • Python及C++中的列表
  • 2025届蓝桥杯JavaB组个人题解(题目全)
  • 【音视频】SDL播放PCM音频
  • 【音视频】SDL渲染YUV格式像素
  • 十六届蓝桥杯嵌入式省赛直播基本外设驱动
  • 设计模式 Day 8:策略模式(Strategy Pattern)完整讲解与实战应用