当前位置：首页 > news >正文

day01 pyspark入门和基础环境

news 2025/10/22 9:07:02

# 从Day01_PySpark入门及基础环境.pdf提取的信息

## 一、分布式计算相关

1. 分布式计算思想：将一个大的任务分成为多个任务，程序提交运行以后可以拆分成多个任务执行。

2. 分布式计算组成：包含分布式资源YARN。

3. 分布式计算流程（step1-Input、step2-Process、step3-Output）：

- step1：读取数据，将输入的数据按照一定的规则拆分成指定切片数，将读取到的数据从逻辑上放入一个结构，该结构在逻辑上呈现多个分区。

- step2：处理数据，采用分治方式，在节点上进行，基于RDD（有分区的数据）实现，每个分区会对应一个任务，每个任务处理对应分区数据。

- step3：保存结果，每个Task会得到一个结果进行输出或保存。

## 二、Spark相关

### （一）Spark定义与功能模块

1. 定义：基于内存的分布式的统一化的计算引擎，让更多的中间计算结果优先存储在内存。

2. 功能模块：包含Spark Core、Spark Streaming（实时代码编程）、Spark ML（机器学习）。

### （二）Spark特点、开发语言与数据接口

1. 特点：统一化，应用场景覆盖离线、实时、机器学习。

2. 开发语言：Java、Scala、Python、SQL、R。

3. 数据接口：读数据（spark.read）支持json、jdbc、csv、table格式；写数据（df.write）支持json、jdbc、csv、table格式。

### （三）Spark应用场景与实际使用

1. 应用场景：机器学习、数据分析、分布式、离线、实时。

2. 实际使用：分布式机器学习、离线数据分析。

### （四）Spark与其他工具对比

|工具|优点|缺点|

| ---- | ---- | ---- |

|Spark|功能比较全面，语言接口比较丰富|性能上相对而言稍微差一些|

|Presto|性能中等，数据源接口非常丰富|与大数据兼容性比较差，只能有限使用|

|Impala|性能最快，底层用C语言实现|只支持Hadoop相关数据|

### （五）Spark运行模式

1. 本地模式（Local）：不是分布式的，单节点启动一个进程。

2. 集群模式（Cluster）：是分布式的，会启动两个或多个进程，所有Task都运行在Executor中。

- 进程：Driver（ApplicationMaster）、Executor（Manage Task）。

- 分类：Standalone、Mesos。

- 提交运行命令：spark-submit --master local[2] / yarn。

### （六）Spark比MR快的原因

1. MR不支持DAG，Spark支持DAG，优先将中间结果存于内存，减少不必要的操作。

2. MR的Shuffle是固定的流程，Spark的Shuffle更灵活。

3. MR的Task是进程级别的，Spark的Task是线程级别的，线程级开销更小。

## 三、WordCount实现代码相关

WordCount实现步骤（step1-Input、step2-Process、step3-Output）：

1. step1：Input读取数据，代码示例为md = spark.read.text("/path/data.txt")。

2. step2：Process处理数据，对读取的数据进行处理（具体处理逻辑未详细说明）。

3. step3：Output保存结果，将处理得到的结果进行输出或保存（具体输出/保存方式未详细说明）。

## 四、Spark程序要点

1. 监控页：Spark为每个程序都构建一个监控页，程序运行时端口从4040开始。

2. 驱动对象：每一个Spark程序都需要一个驱动对象，基本功能是将读取到的数据转换为RDD。

查看全文

http://www.dtcms.com/a/511776.html

公司网站 URL 地址规范

建设一个广告联盟的网站免费祝福网页在线制作

实现Trie（前缀树）

杰理SDK入门教程（六）：自定义按键事件

gray = roi.clone()；和gray = roi；的区别是什么？

STM32中MX_TIM2_Init函数和HAL_TIM_Base_MspInit函数区别

【基于Selenium的智能滑块验证码破解技术详解】

AI体测设备服务商

网站之间如何做视频交换惠州搜索引擎优化

李宏毅机器学习笔记28

【开题答辩实录分享】以《智慧社区信息化服务平台》为例进行答辩实录分享

京东网站建设过程东莞建设网站的位置

SAP SD销售订单执行跟踪报表分享

数据挖掘比赛baseline参考

[人工智能-大模型-19]：GitHub Copilot：程序员的 AI 编程副驾驶

【JVM】低延迟垃圾收集器：Shenandoah收集器与ZGC收集器

深圳网站建设deyondwordpress主题wake

Day44 | J.U.C中的LockSupport详解

网络安全生态及学习路线

深度学习-卷积神经网络基础

广州教育网站设计公司在建工程项目查询

【瀑布流大全】分析原理及实现方式(微信小程序和网页都适用)

wordpress网站的常规安全设置经验分享

代码随想录Day53|110. 字符串接龙、105.有向图的完全联通、106. 岛屿的周长

做婚恋网站这几年做哪个网站致富

【案例实战】听歌学英语鸿蒙APP从零到上架全流程回顾

基于频域的数字盲水印blind-watermark

三、网站开发使用软件环境中小企业建站的方法

开源 Linux 服务器与中间件（八）数据库--MariaDB

Mac OS 安装 VirtualBox

相关文章：