当前位置：首页 > news >正文

从零开始配置spark-local模式

news 2025/10/31 13:00:40

1. 环境准备

操作系统：推荐使用 Linux 或 macOS，Windows 也可以，但可能会有一些额外的配置问题。
Java 环境：Spark 需要 Java 环境。确保安装了 JDK 1.8 或更高版本。
- 检查 Java 版本：
  bash
  复制
```
java -version
```
- 如果没有安装，可以从 Oracle 官网或使用包管理工具安装，例如在 Ubuntu 上：
  bash
  复制
```
sudo apt update
sudo apt install openjdk-11-jdk
```

2. 下载和安装 Spark

下载 Spark：
- 访问 Apache Spark 官方下载页面。
- 选择合适的版本（建议选择预编译的版本，如 Hadoop 2.7+）。
- 下载完成后，解压到本地目录，例如：
  bash
  复制
```
tar -xzf spark-3.4.0-bin-hadoop2.7.tgz
mv spark-3.4.0-bin-hadoop2.7 ~/spark
```

3. 配置环境变量

配置 SPARK_HOME 和 PATH：
- 打开你的 shell 配置文件（如 .bashrc 或 .zshrc）：
  bash
  复制
```
nano ~/.bashrc
```
- 添加以下内容：
  bash
  复制
```
export SPARK_HOME=~/spark
export PATH=$SPARK_HOME/bin:$PATH
```
- 应用配置：
  bash
  复制
```
source ~/.bashrc
```

4. 配置 Spark

修改配置文件（可选）：
- Spark 默认使用本地模式运行，但你可以通过修改配置文件来调整一些参数。
- 进入 Spark 的配置目录：
  bash
  复制
```
cd ~/spark/conf
```
- 复制 spark-defaults.conf.template 为 spark-defaults.conf：
  bash
  复制
```
cp spark-defaults.conf.template spark-defaults.conf
```
- 编辑 spark-defaults.conf，添加或修改以下内容（根据需要）：
  bash
  复制
```
spark.master                     local[*]
spark.executor.memory            1g
spark.driver.memory              1g
```

5. 启动 Spark Shell

进入 Spark 安装目录：
bash
复制
```
cd ~/spark
```

启动 Spark Shell：

bash

复制

./bin/spark-shell

如果一切正常，你会看到 Spark Shell 的提示符，例如：

复制

Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//__ / .__/\_,_/_/ /_/\_\   version 3.4.0/_/Using Scala version 2.12.10, OpenJDK 64-Bit Server VM, 1.8.0_282
Type in expressions to have them evaluated.
Type :help for more information.scala>

6. 测试 Spark

在 Spark Shell 中运行以下代码测试：

scala

复制

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data, 2)
distData.reduce(_ + _)

输出结果应该为 15。

7. 使用 PySpark（可选）

如果你使用 Python，可以安装 PySpark：

安装 PySpark：
bash
复制
```
pip install pyspark
```
运行 PySpark Shell：
bash
复制
```
pyspark
```

测试代码：

Python

复制

data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data, 2)
print(distData.reduce(lambda a, b: a + b))

8. 关闭 Spark Shell

在 Spark Shell 中输入 :quit 或 exit 退出。

注意事项

内存配置：根据你的机器配置调整 spark.executor.memory 和 spark.driver.memory。
网络问题：如果在 Windows 上运行，可能会遇到网络配置问题，建议使用 WSL 或 Docker。
依赖问题：如果需要连接数据库或使用其他组件，可能需要额外配置依赖。

查看全文

http://www.dtcms.com/a/146119.html

AI 赋能 3D 创作！Tripo3D 全功能深度解析与实操教程

git 版本提交规范

软件产品开发全生命周期管理概览：从市场调研到运营维护（着重开发版）

特征提取登上Nature！计算速度为1.0256 TOPS

Oracle数据库和PLSQL安装配置

C# 的字符串插值（$）和逐字字符串（@）功能

.net core 中directory ， directoryinfo ，file， fileinfo区别，联系，场景

计算机前沿技术课程论文 K-means算法在图像处理的应用

前端技术未来的发展趋势分析

【Docker 运维】Java 应用在 Docker 容器中启动报错：`unable to allocate file descriptor table`

计组1.2.2——各个硬件的工作原理

永磁同步电机控制算法-VF控制

初识Redis · C++客户端set和zset

创建 Node.js Playwright 项目：从零开始搭建自动化测试环境

Web3核心技术解析：从区块链到C++实践

【Linux】进程替换与自定义 Shell：原理与实战

【现代深度学习技术】循环神经网络05：循环神经网络的从零开始实现

电商数据自动化采集方案：淘宝商品详情 API 接入与数据处理技巧

电脑硬盘常见的几种接口类型

C++ 操作符重载Operator

UofTCTF-2025-web-复现

精益数据分析（11/126）：辨别虚荣指标，挖掘数据真价值

极狐GitLab 自定义实例级项目模板功能介绍

JVM 内存分布详解

深入理解HotSpot JVM 基本原理

PyTorch实现糖尿病预测的CNN模型：从数据加载到模型部署全解析【N折交叉验证、文末免费下载】

Java学习路线--自用--带链接

天翼云手机断开连接2小时关机

MySQL的窗口函数（Window Functions）

【图像轮廓特征查找】图像处理（OpenCV) -part8