当前位置：首页 > news >正文

知识体系_分布式内存计算框架_spark

news 2025/9/28 5:15:43

1 spark基础入门

1.1 spark诞生背景

1.1.1 spark是什么

spark是一种基于内存的、快速的、可扩展的处理大规模数据的计算分析框架，spark最早源于2009年加州大学伯克利分校Matei Zaharia等人发表的论文中提到“弹性分布式数据集（RDD）”(RDD是一种分布式内存抽象，支持在内存中进行大规模数据的计算，是spark的核心数据结构）；支持结构化、非结构化、半结构化等各种类型的数据结构，也支持使用java、python、scala、R、sql等开发应用程序进行数据计算

1.1.2 spark风雨十年

2009年：诞生于加州大学伯克利分校，项目用scala编写

2010年：spark开源

2013年：spark原创团队成立Databricks公司、spark被捐赠给Apache基金会

2014年：spark成为Apache顶级项目

2016年：spark2.0发布

2019年：spark3.0发布

1.1.3 spark vs hadoop

尽管spark的计算性能高于hadoop，但是spark并不能取代hadoop，原因如下：

(1)spark只有计算功能，而hadoop除了计算，还有存储（HDFS)和调度(Yarn)功能，存储和调度功能是大数据体系很重要的功能

(2)仍然有些计算工具如hive是基于hadoop的mapreduce框架的

总而言之，spark并不能替代hadoop，spark能替代的只是hadoop的计算功能（mapreduce)，两者应该结合使用，可以使数据处理更高效

	hadoop	spark
功能	集计算（mapreduce)、存储(HDFS)、调度(Yarn)功能为一体	只有计算功能
场景	海量数据批处理(磁盘迭代）	海量数据批处理（内存迭代、交互式计算（pyspark、spark-shell）、海量数据流处理（spark streaming)
部署价格	对机器要求不高，便宜	对内存要求高，费用高
数据存储	计算中间过程存储在HDFS磁盘中，延迟高，计算时间长	计算中间过程存储在内存中，尽量减少从磁盘的读写和保存操作，延迟低，计算快
运行方式	以进程方式运行，任务启动慢	任务以线程方式运行，任务启动快

1.1.4 spark四大特点

1.2 spark应用背景

1.3 spark环境搭建

1.3.1 spark环境搭建-本地模式

1.3.2 spark环境搭建-standalone

1.3.3 spark环境搭建-standalone-HA

1.3.4 spark环境搭建-spark on yarn

2 pyspark程序开发

2.1 本机开发环境搭建

2.2 分布式执行代码分析

2 spark应用程序

spark支持python、scala、java、R、sql等语言开发的程序，本文主要重点介绍python和scala应用程序的开发和部署；

2.1 python程序

2.1.1 pyspark交互式编程

2.2 scala程序

2.2.1 spark-shell交互式编程

2.2.2 集成开发工具编程

⚠️建议大家先在Linux上搭建好Hadoop的完全分布式集群环境和Spark分布式集群环境

2.2.2.1 开发环境部署

（1）项目工程构建

（2）工程目录

（3）代码编写

（4）代码编译/运行/打包

https://blog.csdn.net/wanglingli95/article/details/134154006

https://blog.csdn.net/weixin_39198406/article/details/128277964

http://www.dtcms.com/a/414193.html

相关文章：

银行网站开发干什么wordpress路径错误

QML 语法基础详解

ExcelVBA一键生成智能散点趋势图

✨WPF编程基础【1.4】：类型转换器（含示例及源码）

公链分析报告 - 模块化区块链2

数图实战项目（十五-2：第一阶段：从RAW数据到ISP管道，听不懂在说啥？---＞那就盘它）：从奥运大屏，到手机小屏，快来挖一挖里面都有什么

网站开发常见面试东莞网站优化关键词推广

GauGAN详解与实现

Word如何一次性合并多个文档

互联网技术服务优化大师优化项目有

状态管理库 Zustand 的接入流程与注意点

河北网站建设推广电话wordpress网址导航主题

NFS 服务器 iSCSI 服务器

display this 概念、故障排错及题目

whisper-large-v3部署详细步骤，包括cpu和gpu方式，跟着做一次成功

个人用云计算学习笔记 --16（DHCP 服务器）

【Linux】基础IO与文件描述符

FFmpeg 教程：从入门到精通，探索多媒体处理的瑞士军刀

使用ffmpeg8.0的whisper模块语音识别

免费版Markdown 编辑器：Typora

个人建网站有什么好处网站运营需要做哪些工作

MySQL库、表的操作

FileProvider 配置必须针对 Android 7.0+（API 24+）做兼容

混合止损策略在加密货币交易中的应用

Java模拟实现socket通信

iSCSI服务器

PyQt5 界面美化：从基础到高级的完整指南

【Linux系列】让 Vim “跑”起来：实现一个会动的进度条

上海商务网站建设wordpress 云相册

LLM - 构建AI智能体的完整指南：7步流程图与框架实战