当前位置: 首页 > news >正文

知识体系_分布式内存计算框架_spark

1 spark基础入门

1.1 spark诞生背景

1.1.1 spark是什么

spark是一种基于内存的、快速的、可扩展的处理大规模数据的计算分析框架,spark最早源于2009年加州大学伯克利分校Matei Zaharia等人发表的论文中提到“弹性分布式数据集(RDD)”(RDD是一种分布式内存抽象,支持在内存中进行大规模数据的计算,是spark的核心数据结构);支持结构化、非结构化、半结构化等各种类型的数据结构,也支持使用java、python、scala、R、sql等开发应用程序进行数据计算

1.1.2 spark风雨十年

2009年:诞生于加州大学伯克利分校,项目用scala编写

2010年:spark开源

2013年:spark原创团队成立Databricks公司、spark被捐赠给Apache基金会

2014年:spark成为Apache顶级项目

2016年:spark2.0发布

2019年:spark3.0发布

1.1.3 spark vs hadoop

尽管spark的计算性能高于hadoop,但是spark并不能取代hadoop,原因如下:

(1)spark只有计算功能,而hadoop除了计算,还有存储(HDFS)和调度(Yarn)功能,存储和调度功能是大数据体系很重要的功能

(2)仍然有些计算工具如hive是基于hadoop的mapreduce框架的

总而言之,spark并不能替代hadoop,spark能替代的只是hadoop的计算功能(mapreduce),两者应该结合使用,可以使数据处理更高效

hadoopspark
功能集计算(mapreduce)、存储(HDFS)、调度(Yarn)功能为一体只有计算功能
场景海量数据批处理(磁盘迭代)海量数据批处理(内存迭代、交互式计算(pyspark、spark-shell)、海量数据流处理(spark streaming)
部署价格对机器要求不高,便宜对内存要求高,费用高
数据存储计算中间过程存储在HDFS磁盘中,延迟高,计算时间长计算中间过程存储在内存中,尽量减少从磁盘的读写和保存操作,延迟低,计算快
运行方式以进程方式运行,任务启动慢任务以线程方式运行,任务启动快

1.1.4 spark四大特点

 

1.2 spark应用背景

1.3 spark环境搭建

1.3.1 spark环境搭建-本地模式

1.3.2 spark环境搭建-standalone

1.3.3 spark环境搭建-standalone-HA

1.3.4 spark环境搭建-spark on yarn

2 pyspark程序开发

2.1 本机开发环境搭建

2.2 分布式执行代码分析

2 spark应用程序

spark支持python、scala、java、R、sql等语言开发的程序,本文主要重点介绍python和scala应用程序的开发和部署; 

2.1 python程序

2.1.1 pyspark交互式编程

2.2 scala程序

2.2.1 spark-shell交互式编程

2.2.2 集成开发工具编程

⚠️建议大家先在Linux上搭建好Hadoop的完全分布式集群环境和Spark分布式集群环境

2.2.2.1 开发环境部署 

(1)项目工程构建

(2)工程目录

(3)代码编写

(4)代码编译/运行/打包

https://blog.csdn.net/wanglingli95/article/details/134154006

https://blog.csdn.net/weixin_39198406/article/details/128277964

http://www.dtcms.com/a/414193.html

相关文章:

  • 银行 网站开发 干什么wordpress路径错误
  • QML 语法基础详解
  • ExcelVBA一键生成智能散点趋势图
  • ✨WPF编程基础【1.4】:类型转换器(含示例及源码)
  • 公链分析报告 - 模块化区块链2
  • 数图实战项目(十五-2:第一阶段:从RAW数据到ISP管道,听不懂在说啥?---> 那就盘它):从奥运大屏,到手机小屏,快来挖一挖里面都有什么
  • 网站开发常见面试东莞网站优化关键词推广
  • GauGAN详解与实现
  • Word如何一次性合并多个文档
  • 互联网技术服务优化大师优化项目有
  • 状态管理库 Zustand 的接入流程与注意点
  • 河北网站建设推广电话wordpress网址导航主题
  • NFS 服务器 iSCSI 服务器
  • display this 概念、故障排错及题目
  • whisper-large-v3部署详细步骤,包括cpu和gpu方式,跟着做一次成功
  • 个人用云计算学习笔记 --16(DHCP 服务器)
  • 【Linux】基础IO与文件描述符
  • ​​FFmpeg 教程:从入门到精通,探索多媒体处理的瑞士军刀​
  • 使用ffmpeg8.0的whisper模块语音识别
  • 免费版Markdown 编辑器:Typora
  • 个人建网站有什么好处网站运营需要 做哪些工作
  • MySQL库、表的操作
  • FileProvider 配置必须针对 Android 7.0+(API 24+)做兼容
  • 混合止损策略在加密货币交易中的应用
  • Java模拟实现socket通信
  • iSCSI服务器
  • PyQt5 界面美化:从基础到高级的完整指南
  • 【Linux系列】让 Vim “跑”起来:实现一个会动的进度条
  • 上海商务网站建设wordpress 云相册
  • LLM - 构建AI智能体的完整指南:7步流程图与框架实战