当前位置: 首页 > news >正文

基于Spark的用户实时分析

Spark的最简安装

1. 下载并解压 Spark

首先,我们需要下载 Spark 安装包。您可以选择以下方式之一:

方式一:从官网下载(推荐)

# 在 hadoop01 节点上执行
cd /home/hadoop/app
wget https://archive.apache.org/dist/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz

方式二:如果已有安装包,直接解压

cd /home/hadoop/app
# 如果已经有安装包,直接解压
tar -zxvf spark-2.3.1-bin-hadoop2.7.tgz
# 创建软链接
ln -s spark-2.3.1-bin-hadoop2.7 spark

在这里插入图片描述

2. 测试运行 Spark

(1) 准备测试数据集
cd /home/hadoop/app/spark
# 创建测试文件
cat > djt.log << EOF
hadoop hadoop hadoop spark spark spark
EOF# 查看文件内容
cat djt.log

在这里插入图片描述

(2) Spark shell 测试运行单词词频统计
# 启动 Spark shell
bin/spark-shell# 等待 Spark shell 启动完成,看到 scala> 提示符后,依次输入以下命令:

在 Spark shell 中输入以下命令:

// 读取本地文件
val line = sc.textFile("/home/hadoop/app/spark/djt.log")// WordCount 统计并打印
line.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)

预期输出:

(spark,3)
(hadoop,3)

在这里插入图片描述

3. Spark 实现 WordCount(Scala 程序)

步骤1:下载 Hadoop 及 winutils.exe

1.1 下载 Hadoop 2.7.1 安装包

链接参考https://blog.csdn.net/qq_39900031/article/details/121080109

好的,我把 Windows 下 Hadoop 环境配置的 完整详细过程整理给你(以 Hadoop 2.7.1 + JDK1.8 为例):


一、准备工作

  1. 安装 JDK1.8

    • 下载 JDK1.8 并安装,推荐路径如:C:\Java\jdk1.8.0_221

    • 配置环境变量:

      • JAVA_HOME=C:\Java\jdk1.8.0_221
      • PATH 中添加:%JAVA_HOME%\bin
      • 新建 CLASSPATH=.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
  2. 下载 Hadoop 2.7.1

    • 地址:http://archive.apache.org/dist/hadoop/core/hadoop-2.7.1/
    • 解压到:C:\hadoop-2.7.1
  3. 下载 HadoopOnWindows 适配包

    • GitHub 或 CSDN 提供的 hadooponwindows-master.zip
    • 解压后,把里面的 bin 和 etc 文件夹 覆盖到 C:\hadoop-2.7.1 目录下。

二、配置 Hadoop 环境变量

系统环境变量中新建:

  • HADOOP_HOME=C:\hadoop-2.7.1
  • PATH 添加:%HADOOP_HOME%\bin;%HADOOP_HOME%\sbin

三、修改配置文件

进入 C:\hadoop-2.7.1\etc\hadoop 目录:

  1. hadoop-env.cmd

    set JAVA_HOME=C:\Java\jdk1.8.0_221
    
  2. core-site.xml

    <configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property><property><name>hadoop.tmp.dir</name><value>C:/hadoop-2.7.1/tmp</value>

文章转载自:

http://XCQQe3GT.fgxpy.cn
http://lfqGDuSk.fgxpy.cn
http://MXl5x34a.fgxpy.cn
http://9JAkY8lP.fgxpy.cn
http://tqbtXVKp.fgxpy.cn
http://KbehU2NL.fgxpy.cn
http://FeOY7rOm.fgxpy.cn
http://o56VmeAs.fgxpy.cn
http://JGLoN5GE.fgxpy.cn
http://xuRynNVA.fgxpy.cn
http://K9E0oSWx.fgxpy.cn
http://OX0M4NOH.fgxpy.cn
http://oB1OsLSu.fgxpy.cn
http://f4lqcYe8.fgxpy.cn
http://l5EG953C.fgxpy.cn
http://qud25DuP.fgxpy.cn
http://HKE9cBHk.fgxpy.cn
http://ZBusDLyh.fgxpy.cn
http://zUlJdNsp.fgxpy.cn
http://Nfq8HiG6.fgxpy.cn
http://fXgjKfHM.fgxpy.cn
http://dy3TGFGR.fgxpy.cn
http://In1E1wks.fgxpy.cn
http://bAJnHbGZ.fgxpy.cn
http://1eAqkA5r.fgxpy.cn
http://C2eY5ker.fgxpy.cn
http://qcJ765Ub.fgxpy.cn
http://aEd0qZQR.fgxpy.cn
http://Kr6641UG.fgxpy.cn
http://bkMWjJgR.fgxpy.cn
http://www.dtcms.com/a/388280.html

相关文章:

  • 什么是 Conda 环境?
  • RK3506开发板QT Creator开发手册,交叉编译工具链与QT应用示例,入门必备
  • 颠覆3D生成,李飞飞团队新研究实现3D场景「无限探索」,AI构建世界模型能力跨越式进化
  • 3D 大模型生成虚拟世界
  • AI技术全景图:从大模型到3D生成,探索人工智能的无限可能
  • 一天认识一种模型方法--3D人体建模 SMPL
  • World Labs 的核心技术介绍:生成持久、可导航的 3D 世界
  • websocket如何推送最新日志
  • 使用Docker部署bewCloud轻量级Web云存储服务
  • web Service介绍
  • Web 架构中的共享存储:NFS 部署与用户压缩
  • RuoYi整合ZLM4j+WVP
  • @CrossOrigin的作用
  • Tree-shaking【前端优化】
  • Scikit-learn Python机器学习 - 分类算法 - 随机森林
  • 深入浅出Java中的Happens-Before原则!
  • centos7更换yum源
  • [特殊字符] 认识用户手册用户手册(也称用户指南、产品手册)是通过对产品功能的清
  • Codex 在 VS Code/Cursor 的插件基础配置
  • 前端Web案例-登录退出
  • Redis学习------------缓存优化
  • openfeigin 跨服务调用流程 源码阅读
  • 运动手环心率监测:原理、可靠性与市场顶尖之选全解析​​
  • 端到端智驾测试技术论文阅读
  • Frank-Wolfe算法:深入解析与前沿应用
  • GPT-5-Codex CLI保姆级教程:获取API Key配置与openai codex安装详解
  • 代码优化测试
  • 深度学习基础:PyTorch张量创建与操作详解
  • 7 大文献综述生成工具 2025 实测推荐
  • 红黑树 详解