当前位置: 首页 > news >正文

运行Spark程序-在shell中运行1

分布式计算要处理的问题

【老师提问:分布式计算要面临什么问题?】

【老师总结】

分布式计算需要做到:

1.分区控制。把大的数据拆成一小份一小份的(分区,分片)让多台设备同时计算,所以要分区。

2.Shuffle控制。不同分区之间的数据是需要有关联的,在不同的分区之间进行数据的传输就是Shuffle,也叫洗牌。

3.数据存储\序列化\发送

4.数据计算API

等等一些功能。

【举例讲案例】

我们用期末考试结束,老师们批改全校试卷的例子来解释这些概念。

老师们批改试卷时,会按照一定的规则进行分工。比如,先把试卷按照班级分成不同的 “分区”,每个班级的试卷就是一个独立的分区,就像分布式计算中把数据划分成不同的部分进行处理。然后,不同学科的老师负责批改相应学科的试卷,这就是 “区域控制”,每个学科区域专注于自己的任务。

在批改试卷之前,需要对试卷信息进行整理,就像 “数据的存储序列化”。例如,将学生的基本信息、题目内容以及对应的分值等信息整理成规范的格式,以便于后续的处理。这个过程就如同将数据转换为计算机能够理解和处理的形式。

当试卷分发到各个老师手中开始批改时,这类似于 “发送数据” 和 “计算” 的过程。老师们根据评分标准给试卷打分,这就是 “计算” 操作,每个老师就如同一个计算节点,各自处理分配到的试卷任务。

而在批改过程中,可能会出现一些特殊情况,比如某些题目的评分标准需要进一步明确或者不同老师对某个答案的理解有差异。这时就需要进行沟通和协调,就像分布式计算中的 “SHUFFLE”(洗牌)过程。老师们会交流讨论,重新梳理评分标准,确保批改结果的一致性。这个过程就像是在分布式系统中,不同节点之间的数据交换和协调,以保证整个任务的顺利进行。

相关文章:

  • 如何通过外卖系统源码打造本地O2O外卖配送生态?全链路技术解析
  • Java练习题:String
  • python文件打包成exe文件
  • SQLMesh信号机制详解:如何精准控制模型评估时机
  • 笔记项目 day02
  • 【日撸 Java 300行】Day 14(栈)
  • Pytorch学习笔记(二十二)Audio - Audio I/O
  • 数据工具:数据同步工具、数据血缘工具全解析
  • 最终一致性和强一致性
  • 大模型—— FastGPT 知识库无缝集成到 n8n 工作流 (基于 MCP 协议)
  • 论文《Collaboration-Aware Graph Convolutional Network for Recommender Systems》阅读
  • NY182NY183美光固态颗粒NY186NY188
  • 推荐几个常用免费的文本转语音工具
  • 王炸组合!STL-VMD二次分解 + Informer-LSTM 并行预测模型
  • 物理:从人体组成角度能否说明基本粒子的差异性以及组织结构的可预设性?
  • 传输层协议UDP
  • Logisim实验--华科计算机组成原理(保姆级教程) 头歌-存储系统设计实验(汉字库存储芯片扩展实验、MIPS寄存器文件设计)
  • 编译docker版openresty
  • huggingface transformers中Dataset是一种什么数据类型
  • # 07_Elastic Stack 从入门到实践(七)---2
  • 杭州“放大招”支持足球发展:足球人才可评“高层次人才”
  • 山西临汾哪吒主题景区回应雕塑被指抄袭:造型由第三方公司设计
  • 横跨万里穿越百年,《受到召唤·敦煌》中张艺兴一人分饰两角
  • 美国务卿鲁比奥将前往土耳其参加俄乌会谈
  • 云南大理铁路枢纽工程建设取得两大进展,预计明年建成
  • 应急部:正在积极推动各地逐步科学建设改造应急避难场所