当前位置: 首页 > news >正文

【赵渝强老师】Spark的容错机制:检查点

在这里插入图片描述

由于Spark的计算是在内存中完成,因此任务执行的生命周期lineage(血统)越长,执行出错的概念就会越大。Spark通过检查点Checkpoint的方式,将RDD的状态写入磁盘进行持久化的保存从而支持容错。如果在检查点之后有节点出现了问题,Spark只需要从检查点的位置开始重新执行lineage就可以了,这样就减少了开销。设置checkpoint的目录,可以是本地的文件夹,也可以是HDFS。

视频讲解如下

【赵渝强老师】Spark的容错机制:检查点

建议在生产系统中采用具有容错能力、高可靠的文件系统作为检查点保存的目的地。

1、使用本地目录作为检查点目录

这种模式需要将spark-shell运行在本地模式上。下面的代码使用了本地目录作为RDD检查点的目录
(1)设置检查点目录。

scala> sc.setCheckpointDir("file:///root/temp/checkpoint")

(2)创建RDD。

scala> val rdd1 = sc.textFile("hdfs://bigdata111:9000/input/sales")

(3)标识RDD的检查点。

scala> rdd1.checkpoint

(4)执行计算。

scala> rdd1.count

(5)当计算完成后,查看本地的/root/temp/checkpoint目录下生成了相应的检查点信息,如下图所示。
在这里插入图片描述

《从大数据到云原生系列课程》

2、使用HDFS目录作为检查点目录。

这种模式需要将spark-shell运行在集群模式上。下面的代码使用了HDFS目录作为RDD检查点的目录
(1)设置检查点目录。

scala> sc.setCheckpointDir("hdfs://bigdata111:9000/spark/checkpoint")

(2)创建RDD。

scala> val rdd1 = sc.textFile("hdfs://bigdata111:9000/input/sales")

(3)标识RDD的检查点。

scala> rdd1.checkpoint

(4)执行计算。

scala> rdd1.count

(5)当计算完成后,查看HDFS的/spark/checkpoint目录下生成了相应的检查点信息,如下图所示。
在这里插入图片描述
《从大数据到云原生系列课程》

相关文章:

  • Android网络框架——OKHttp
  • Webpack相关优化总结
  • 《刚刚问世》系列初窥篇-Java+Playwright自动化测试-21- 操作鼠标拖拽 - 中篇(详细教程)
  • 如何计算模型的FLOPs以全连接层为例
  • 前端框架Vue内容回顾
  • 递归图解Json
  • 【OJ项目】深入剖析 JudgeServiceImpl 类:题目的判题逻辑详解
  • 走出养生误区,拥抱健康生活
  • PyTorch Lightning LightningDataModule 介绍
  • 如何实现对 ELK 各组件的监控?试试 Metricbea
  • 机器学习 - 大数定律、可能近似正确学习理论
  • 《Python与C#:虚拟机与元宇宙的次元战争》
  • 选择题知识点(一)
  • linux下OSD使用SDL_ttf生成点阵数据,移植+开发代码详解
  • 数据结构 day05
  • Node.js 版本与 npm 的关系及版本特性解析:从开源项目看演进
  • 执行js生成json文件并动态写入数据
  • MySQL一些常见的索引失效情况
  • 探索技术新边界:让 HTML 电子凭证与二维码、PDF 完美融合
  • 网络安全-攻击路径
  • 邮箱注册163免费注册入口/兰州网络seo
  • seo收费还是免费/排名优化网站
  • 企业为什么要做网站 作用是什么/seo优化平台
  • 黄山网站优化/全球新闻最新消息
  • 无锡网站建设专家无锡网站制作/河北网站推广公司
  • wordpress文档管理/百度有专做优化的没