当前位置：首页 > news >正文

基于Spark的用户实时分析

news 2025/9/18 10:07:33

Spark的最简安装

1. 下载并解压 Spark

首先，我们需要下载 Spark 安装包。您可以选择以下方式之一：

方式一：从官网下载（推荐）

# 在 hadoop01 节点上执行
cd /home/hadoop/app
wget https://archive.apache.org/dist/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz

方式二：如果已有安装包，直接解压

cd /home/hadoop/app
# 如果已经有安装包，直接解压
tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
# 创建软链接
ln -s spark-2.3.1-bin-hadoop2.7 spark

在这里插入图片描述

2. 测试运行 Spark

(1) 准备测试数据集

cd /home/hadoop/app/spark
# 创建测试文件
cat > djt.log << EOF
hadoop hadoop hadoop spark spark spark
EOF# 查看文件内容
cat djt.log

在这里插入图片描述

(2) Spark shell 测试运行单词词频统计

# 启动 Spark shell
bin/spark-shell# 等待 Spark shell 启动完成，看到 scala> 提示符后，依次输入以下命令：

在 Spark shell 中输入以下命令：

// 读取本地文件
val line = sc.textFile("/home/hadoop/app/spark/djt.log")// WordCount 统计并打印
line.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

预期输出：

(spark,3)
(hadoop,3)

在这里插入图片描述

3. Spark 实现 WordCount（Scala 程序）

步骤1：下载 Hadoop 及 winutils.exe

1.1 下载 Hadoop 2.7.1 安装包

链接参考https://blog.csdn.net/qq_39900031/article/details/121080109

好的，我把 Windows 下 Hadoop 环境配置的 完整详细过程整理给你（以 Hadoop 2.7.1 + JDK1.8 为例）：

一、准备工作

安装 JDK1.8
- 下载 JDK1.8 并安装，推荐路径如：C:\Java\jdk1.8.0_221。
- 配置环境变量：
  - JAVA_HOME=C:\Java\jdk1.8.0_221
  - PATH 中添加：%JAVA_HOME%\bin
  - 新建 CLASSPATH=.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
下载 Hadoop 2.7.1
- 地址：http://archive.apache.org/dist/hadoop/core/hadoop-2.7.1/
- 解压到：C:\hadoop-2.7.1
下载 HadoopOnWindows 适配包
- GitHub 或 CSDN 提供的 hadooponwindows-master.zip
- 解压后，把里面的 bin 和 etc 文件夹 覆盖到 C:\hadoop-2.7.1 目录下。

二、配置 Hadoop 环境变量

在 系统环境变量中新建：

HADOOP_HOME=C:\hadoop-2.7.1
PATH 添加：%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin

三、修改配置文件

进入 C:\hadoop-2.7.1\etc\hadoop 目录：

hadoop-env.cmd
```
set JAVA_HOME=C:\Java\jdk1.8.0_221
```

core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>C:/hadoop-2.7.1/tmp</value>