当前位置: 首页 > news >正文

Spark知识总结

宽窄依赖:父RDD的分区只对应下面子RDD的一个分区,为窄依赖。其余为宽依赖

维度窄依赖宽依赖
数据传输无shuffle,本地处理14需shuffle,跨节点传输14
并行度高(允许流水线并行)57低(需等待父任务完成)28
容错恢复成本仅需重算单个父分区57需重算多个父分区8
典型操作mapfilterunion4groupByKeyjoin4

其实就是父RDD的一个分区会被传到几个子RDD分区的区别。如果被传到一个子RDD分区,就可以不需要移动数据(移动计算);如果被传到多个子RDD分区,就需要进行数据的传输。

如何计算job, stage, task可以参考这篇博客:[Spark] 手撕Job、Stage、Task划分机制_spark根据什么分task-CSDN博客

相关文章:

  • AI在Java中的场景面试题深度解析
  • c++之使用 libdl.so 和 <dlfcn.h> 实现动态链接
  • MySQL 的ANALYZE与 OPTIMIZE命令
  • 【基础篇】static_config采集配置详解
  • 《无刷空心杯电机减速机选型及行业发展趋势》
  • 邮件分类特征维度实验分析
  • QT事件Trick
  • 临床试验概述:从定义到实践的关键要素
  • Docker的常用命令
  • 为什么MySQL推荐使用自增主键?
  • 密码杂凑算法HaoLooog512设计原理详解
  • TRex 控制台命令解析
  • C++:BST、AVL、红黑树
  • 【Android】SettingsPreferenceService
  • 网络协议之为什么要分层
  • Mamba2模型的实现
  • 《系统架构 - Java 企业应用架构中的完整层级划分》
  • 大学之大:韩国科学技术研究院2025.4.28
  • 聊一聊接口自动化测试的稳定性如何保障
  • 探秘Transformer系列之(31)--- Medusa
  • 马上评丨上热搜的协和“4+4”模式,如何面对舆论审视
  • 排除燃气爆炸、人为放火可能,辽宁辽阳火灾事故起火原因正在调查
  • 美国参议院投票通过戴维·珀杜出任美国驻华大使
  • 郭继孚被撤销全国政协委员资格,此前为北京交通发展研究院长
  • 演员刘美含二手集市被曝售假,本人道歉
  • 法治日报调查直播间“杀熟”乱象:熟客越买越贵,举证难维权不易