当前位置: 首页 > news >正文

文件内容课堂总结

reduce算子用于聚集RDD所有元素,先聚合分区内数据再聚合分区间数据。collect算子在驱动程序中以数组形式返回数据集所有元素。foreach算子分布式遍历RDD每个元素并调用指定函数。count算子返回RDD元素个数。first算子返回RDD第一个元素。take算子返回RDD前n个元素组成的数组。takeOrdered算子返回排序后的前n个元素组成的数组。aggregate算子分区数据通过初始值和分区内数据聚合后再和初始值进行分区间数据聚合。fold算子是aggregate的简化版操作。countByKey算子统计每种key的个数。save相关算子可将数据保存为不同格式文件。
partitionBy算子将数据按指定Partitioner重新分区,默认是HashPartitioner。groupByKey算子将数据根据key对value进行分组,有不同参数形式。reduceByKey算子将数据按相同key对value进行聚合,相比groupByKey在shuffle前可对分区内相同key数据预聚合,性能更高。aggregateByKey算子将数据根据不同规则进行分区内计算和分区间计算。foldByKey算子当分区内计算规则和分区间计算规则相同时,aggregateByKey可简化为foldByKey。combineByKey算子是最通用的对key – value型rdd进行聚集操作的聚集函数,允许用户返回值类型与输入不一致。sortByKey算子在一个(K,V)的RDD上调用,K须实现Ordered接口,返回按key排序的RDD。join算子在类型为(K,V)和(K,W)的RDD上调用,返回相同key对应的所有元素连接在一起的(K,(V,W))的RDD。leftOuterJoin算子类似于SQL语句的左外连接。cogroup算子在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable,Iterable))类型的RDD。
累加器用于把Executor端变量信息聚合到Driver端,通过在Driver程序中定义变量,Executor端每个Task得到该变量副本并更新,最后传回Driver端merge。自定义累加器可实现词频统计等功能。广播变量用于高效分发较大的对象,向所有工作节点发送一个较大的只读值供一个或多个Spark操作使用。例如在多个并行操作中使用同一变量时,可避免为每个任务分别发送。
 

相关文章:

  • 14 nginx 的 dns 缓存的流程
  • 为了避免unboundLocalError和为什么X的值一直不变呢?
  • Gartner发布软件供应链安全市场指南:软件供应链安全工具的8个强制功能、9个通用功能及全球29家供应商
  • 如何查看linux history命令文件
  • 【pm2】pm2启动无法访问接口 ,node命令启动却可以
  • 使用nhdeep档案目录打印工具生成干部人事档案目录打印文件
  • 0501路由-react-仿低代码平台项目
  • [问题帖] vscode 重启远程终端
  • jsoup解析页面保留换行符
  • 计算机视觉色彩空间全解析:RGB、HSV与Lab的实战对比
  • 蓝桥杯C/C++省赛/国赛注意事项及运行环境配置
  • 淘宝商品数据实时抓取 API 开发指南:从接口申请到数据解析实战
  • [原创](现代Delphi 12指南): 设置、运行和调试你的第一个macOS应用程序.
  • JZ31 栈的压入、弹出序列
  • 穿透三层内网VPC1
  • 反转链表系列
  • UVa1367/LA3532 Nuclear Plants
  • 第十五届蓝桥杯大赛软件赛省赛Python 大学 B 组试做(下)【本期题单: 缴纳过路费, 纯职业小组】
  • Asp.NET Core WebApi 配置文件
  • 网站集群批量管理-Ansible剧本与变量
  • 寻找郑州网站建设公司/今天全国疫情最新消息
  • 真做视频网站/seo关键词分析表
  • 网站设计与wap网站开发技术/seo教学网seo
  • 做美食网站需求分析报告/爱站网关键词密度
  • 网站建设设计报价/网推团队
  • 我们的网站正在建设之中/附近电脑培训班零基础