当前位置: 首页 > news >正文

day01 pyspark入门和基础环境

# Day01_PySpark入门及基础环境.pdf提取的信息

## 一、分布式计算相关

1. 分布式计算思想:将一个大的任务分成为多个任务,程序提交运行以后可以拆分成多个任务执行。

2. 分布式计算组成:包含分布式资源YARN

3. 分布式计算流程(step1-Inputstep2-Processstep3-Output):

    - step1:读取数据,将输入的数据按照一定的规则拆分成指定切片数,将读取到的数据从逻辑上放入一个结构,该结构在逻辑上呈现多个分区。

    - step2:处理数据,采用分治方式,在节点上进行,基于RDD(有分区的数据)实现,每个分区会对应一个任务,每个任务处理对应分区数据。

    - step3:保存结果,每个Task会得到一个结果进行输出或保存。

## 二、Spark相关

### (一)Spark定义与功能模块

1. 定义:基于内存的分布式的统一化的计算引擎,让更多的中间计算结果优先存储在内存。

2. 功能模块:包含Spark CoreSpark Streaming(实时代码编程)、Spark ML(机器学习)。

### (二)Spark特点、开发语言与数据接口

1. 特点:统一化,应用场景覆盖离线、实时、机器学习。

2. 开发语言:JavaScalaPythonSQLR

3. 数据接口:读数据(spark.read)支持jsonjdbccsvtable格式;写数据(df.write)支持jsonjdbccsvtable格式。

### (三)Spark应用场景与实际使用

1. 应用场景:机器学习、数据分析、分布式、离线、实时。

2. 实际使用:分布式机器学习、离线数据分析。

### (四)Spark与其他工具对比

|工具|优点|缺点|

| ---- | ---- | ---- |

|Spark|功能比较全面,语言接口比较丰富|性能上相对而言稍微差一些|

|Presto|性能中等,数据源接口非常丰富|与大数据兼容性比较差,只能有限使用|

|Impala|性能最快,底层用C语言实现|只支持Hadoop相关数据|

### (五)Spark运行模式

1. 本地模式(Local):不是分布式的,单节点启动一个进程。

2. 集群模式(Cluster):是分布式的,会启动两个或多个进程,所有Task都运行在Executor中。

    - 进程:DriverApplicationMaster)、ExecutorManage Task)。

    - 分类:StandaloneMesos

    - 提交运行命令:spark-submit --master local[2] / yarn

### (六)SparkMR快的原因

1. MR不支持DAGSpark支持DAG,优先将中间结果存于内存,减少不必要的操作。

2. MRShuffle是固定的流程,SparkShuffle更灵活。

3. MRTask是进程级别的,SparkTask是线程级别的,线程级开销更小。

## 三、WordCount实现代码相关

WordCount实现步骤(step1-Inputstep2-Processstep3-Output):

1. step1Input读取数据,代码示例为md = spark.read.text("/path/data.txt")

2. step2Process处理数据,对读取的数据进行处理(具体处理逻辑未详细说明)。

3. step3Output保存结果,将处理得到的结果进行输出或保存(具体输出/保存方式未详细说明)。

## 四、Spark程序要点

1. 监控页:Spark为每个程序都构建一个监控页,程序运行时端口从4040开始。

2. 驱动对象:每一个Spark程序都需要一个驱动对象,基本功能是将读取到的数据转换为RDD

http://www.dtcms.com/a/511776.html

相关文章:

  • 公司网站 URL 地址规范
  • 建设一个广告联盟的网站免费祝福网页在线制作
  • 实现Trie(前缀树)
  • 杰理SDK入门教程(六):自定义按键事件
  • gray = roi.clone();和gray = roi;的区别是什么?
  • STM32中MX_TIM2_Init函数和HAL_TIM_Base_MspInit函数区别
  • 【基于Selenium的智能滑块验证码破解技术详解】
  • AI体测设备服务商
  • 网站之间如何做视频交换惠州搜索引擎优化
  • 李宏毅机器学习笔记28
  • 【开题答辩实录分享】以《智慧社区信息化服务平台》为例进行答辩实录分享
  • 京东网站建设过程东莞建设网站的位置
  • SAP SD销售订单执行跟踪报表分享
  • 数据挖掘比赛baseline参考
  • [人工智能-大模型-19]:GitHub Copilot:程序员的 AI 编程副驾驶
  • 【JVM】低延迟垃圾收集器:Shenandoah收集器与ZGC收集器
  • 深圳网站建设deyondwordpress主题wake
  • Day44 | J.U.C中的LockSupport详解
  • 网络安全生态及学习路线
  • 深度学习-卷积神经网络基础
  • 广州教育网站设计公司在建工程项目查询
  • 【瀑布流大全】分析原理及实现方式(微信小程序和网页都适用)
  • wordpress网站的常规安全设置经验分享
  • 代码随想录Day53|110. 字符串接龙、105.有向图的完全联通、106. 岛屿的周长
  • 做婚恋网站这几年做哪个网站致富
  • 【案例实战】听歌学英语鸿蒙APP从零到上架全流程回顾
  • 基于频域的数字盲水印blind-watermark
  • 三、网站开发使用软件环境中小企业建站的方法
  • 开源 Linux 服务器与中间件(八)数据库--MariaDB
  • Mac OS 安装 VirtualBox