当前位置: 首页 > wzjs >正文

哪里有南宁网站建设西安网站建设公司排名

哪里有南宁网站建设,西安网站建设公司排名,个人工商查询官网入口查询,深圳极速网站建设推荐Spark 单机模式安装步骤 Spark 安装 上传安装包:将下载好的 Spark 安装包(如 spark-3.3.0-bin-hadoop3.tgz)通过 FTP 工具或 scp 命令上传至 Linux 服务器的指定目录,例如/opt/software。 解压安装包:使用tar -zxvf …

Spark 单机模式安装步骤

Spark 安装

  1. 上传安装包:将下载好的 Spark 安装包(如 spark-3.3.0-bin-hadoop3.tgz)通过 FTP 工具或 scp 命令上传至 Linux 服务器的指定目录,例如/opt/software

  2. 解压安装包:使用tar -zxvf spark-3.3.0-bin-hadoop3.tgz -C /opt/installs/命令将安装包解压到/opt/installs目录。

  3. 重命名:为了方便后续操作,将解压后的文件夹重命名,执行mv /opt/installs/spark-3.3.0-bin-hadoop3 /opt/installs/spark

  4. 创建软链接:通过ln -s /opt/installs/spark /opt/spark创建软链接,简化路径访问。

  5. 配置环境变量:编辑/etc/profile文件,添加如下内容:

    export SPARK_HOME=/opt/spark
    export PATH=$PATH:$SPARK_HOME/bin
    
     

    保存后执行source /etc/profile刷新环境变量。

Anaconda 安装(Python 环境)

Anaconda 不仅包含 Python,还具备资源环境隔离功能,方便不同版本环境的测试开发,是 Spark 的理想 Python 环境。

  1. 下载与上传:从Anaconda 官网 archive 页面下载合适版本(如 Anaconda3-2022.10-Linux-x86_64.sh),上传至服务器/opt/software目录。

  2. 安装 Anaconda:执行bash /opt/software/Anaconda3-2022.10-Linux-x86_64.sh,按照提示完成安装,建议安装在/opt/installs/anaconda3目录。

  3. 环境变量配置:编辑/etc/profile,添加:

    export ANACONDA_HOME=/opt/installs/anaconda3
    export PATH=$PATH:$ANACONDA_HOME/bin
    
     

    执行source /etc/profile刷新,再通过ln -s /opt/installs/anaconda3/bin/python3 /usr/bin/python3创建软链接,确保python3命令可用。

  4. 环境管理命令

    • 进入环境:conda activate 环境名
    • 退出环境:conda deactivate

Spark 测试使用

Spark Python Shell 是交互式学习工具,通过pyspark命令启动,可实时编写代码并查看结果。

案例一:map 算子实现分布式转换

需求:将 1~10 的列表中每个元素平方后输出。

在 Spark Python Shell 中执行:

# 创建包含1~10的RDD
rdd = sc.parallelize(range(1, 11))
# 使用map算子计算平方
square_rdd = rdd.map(lambda x: x * x)
# 输出结果
square_rdd.collect()

执行后将得到[1, 4, 9, 16, 25, 36, 49, 64, 81, 100],展示了 Spark 分布式处理元素的能力。

案例二:WordCount 词频统计

/home/data.txt为数据源,统计每个单词出现的次数,步骤如下:

  1. 读取数据

    fileRdd = sc.textFile("/home/data.txt")
    print("总行数:", fileRdd.count())
    print("前3行:", fileRdd.take(3))
    
  2. 过滤空行

    filterRdd = fileRdd.filter(lambda line: len(line.strip()) > 0)
    print("过滤后行数:", filterRdd.count())
    
  3. 拆分单词

    wordRdd = filterRdd.flatMap(lambda line: line.strip().split(" "))
    print("单词总数:", wordRdd.count())
    
  4. 生成键值对

    tupleRdd = wordRdd.map(lambda word: (word, 1))
    
  5. 聚合统计

    rsRdd = tupleRdd.reduceByKey(lambda tmp, item: tmp + item)
    
  6. 结果输出与保存

    # 打印结果
    rsRdd.foreach(lambda kv: print(kv))
    # 保存到本地
    rsRdd.saveAsTextFile("/home/wcoutput")
    

案例三:计算 PI 值

通过 Spark 提交脚本计算圆周率,执行:

/opt/installs/spark/bin/spark-submit --master local[2] /opt/installs/spark/examples/src/main/python/pi.py 100

其中--master local[2]指定使用 2 个核心,100是采样次数,结果会接近 3.14。

http://www.dtcms.com/wzjs/187022.html

相关文章:

  • 做外包胡it网站百度快照推广一年要多少钱
  • 岗顶做网站公司盘搜搜
  • 主机服务器网站 怎么做优化大师怎么卸载
  • 江苏网站建设怎么样qq推广链接
  • 国内免费高清视频素材济南seo顾问
  • 上海做推抖音seo是什么意思
  • 做seo网站图片怎么优化百度指数疫情
  • 杭州制作网站公司百度快照手机版网页版
  • 如何wix 做 网站直播引流推广方法
  • wordpress 多字段厦门seo招聘
  • 企业数字化转型今日头条搜索优化
  • asp动态网站开发 电子书百度seo排名优化系统
  • 网站建设公司沈阳优秀网站网页设计图片
  • 石家庄信息门户网站定制费用seo研究中心学员案例
  • 服装公司网站背景图成人培训机构
  • 潮汕学院网站开发全国互联网营销大赛官网
  • 网站制作公司怎么收费网络推广怎么样
  • 织梦做的网站打包在dw修改免费自动推广手机软件
  • 网站建设中故障分类和排除方法怎么做营销
  • 组合图片可以用在网站做链接吗推推蛙seo
  • 网站建设越来越难做发帖效果好的网站
  • 去哪个网站做试用好百度下载app安装
  • p2p网站制作价格如何做好网络营销管理
  • 怎么做网站弹窗怎样建立一个网站
  • 新公司网站建设都有哪些优势上海外贸seo公司
  • 镇江市建设工程安全监督站网站百度的总部在哪里
  • 知更鸟wordpress显示已收录seo网络培训班
  • 做网站做软件怎么赚钱优化大师客服
  • 大学生网站开发比赛郑州网络推广
  • 男人需要网站2021年中国关键词