当前位置：首页 > wzjs >正文

关于建设校园网站申请沈阳网络seo公司

wzjs 2025/9/21 21:18:05

关于建设校园网站申请,沈阳网络seo公司,网络营销与直播电商课程,对网站的建议和优化spark核心概念 spark集群架构 spark集群安装部署 spark-shell的使用通过IDEA开发spark程序 1. Spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processingspark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进&…

spark核心概念
spark集群架构
spark集群安装部署
spark-shell的使用
通过IDEA开发spark程序

1. Spark是什么

Apache Spark™ is a unified analytics engine for large-scale data processingspark是针对于大规模数据处理的统一分析引擎

spark是在Hadoop基础上的改进，是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 spark是基于内存计算框架，计算速度非常之快

输入计算输出

分发计算收集

第一步保存中间结果第二步

2. Spark

2.1 速度快

相对于hadoop来说，有使用hadoop MR经验会有体会

运行速度提高100倍

Apache Spark使用最先进的DAG调度程序，查询优化程序和物理执行引擎，实现批量和流式数据的高性能。
spark比mapreduce快的2个主要原因

基于内存

mapreduce任务后期再计算的时候，每一个job的输出结果会落地到磁盘，后续有其他的job需要依赖于前面job的输出结果，这个时候就需要进行大量的磁盘io操作。性能就比较低。 spark任务后期再计算的时候，job的输出结果可以保存在内存中，后续有其他的job需要依赖于前面job的输出结果，这个时候就直接从内存中获取得到，避免了磁盘io操作，性能比较高

进程与线程

mapreduce任务以进程的方式运行在yarn集群中，比如程序中有100个MapTask，一个task就需要一个进程，这些task要运行就需要开启100个进程。 spark任务以线程的方式运行在进程中，比如程序中有100个MapTask，后期一个task就对应一个线程，这里就不在是进程，这些task需要运行，这里可以极端一点：只需要开启1个进程，在这个进程中启动100个线程就可以了。进程中可以启动很多个线程，而开启一个进程与开启一个线程需要的时间和调度代价是不一样。开启一个进程需要的时间远远大于开启一个线程。

2.2 易用性

可以快速去编写spark程序通过 java/scala/python/R/SQL等不同语言

2.3 通用性

spark框架不在是一个简单的框架，可以把spark理解成一个生态系统，它内部是包含了很多模块，基于不同的应用场景可以选择对应的模块去使用

sparksql、api

通过sql去开发spark程序做一些离线分析

sparkStreaming

主要是用来解决公司有实时计算的这种场景

Mlib

它封装了一些机器学习的算法库

Graphx 图计算

2.4 兼容性

spark程序就是一个计算逻辑程序，这个任务要运行就需要计算资源（内存、cpu、磁盘），哪里可以给当前这个任务提供计算资源，就可以把spark程序提交到哪里去运行

standAlone

少量的节点，比较纯粹的spark任务

它是spark自带的集群模式，整个任务的资源分配由spark集群的老大Master负责

yarn

yarn有接口，可以对接其他的计算框架 mr flink spark java

可以把spark程序提交到yarn中运行，整个任务的资源分配由yarn中的老大ResourceManager负责

mesos

云原生支持的比较快

它也是apache开源的一个类似于yarn的资源调度平台。

3. Spark与Yarn

mesos standalone yarn cpu 磁盘内存

spark提交任务到yarn

Driver

它会执行客户端写好的main方法，它会构建一个名叫SparkContext对象
Task

spark任务是以task线程的方式运行在worker节点对应的executor进程中

spark是调用了yarn的接口，将任务提交给yarn来执行计算，实际的计算逻辑就是我们driver中的代码

4. Spark集群安装部署

事先搭建好hadoop分布式环境

下载安装包
解压安装包到指定的安装目录/root
重命名解压目录

mv spark-3.1.1-bin-hadoop3.2 spark
修改配置文件，进入到spark的安装目录下对应的conf文件夹

vim spark-env.sh ( mv spark-env.sh.template spark-env.sh)

vim slaves ( mv slaves.template salves)
```
#指定spark集群的worker节点
hadoop01
hadoop02
hadoop03
```
分发安装目录到其他机器
```
xsync /root/spark /root/spark
```
8、修改spark环境变量(也可以不配置，这里主要是为了)

vim /etc/profile
```
export SPARK_HOME=/root/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
```

当启动好spark集群之后，可以访问这样一个地址http://hadoop01:8080

5. Spark怎么使用

5.1 生产环境

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
examples/jars/spark-examples_2.12-3.1.1.jar \
10

##参数说明
--class：指定包含main方法的主类
--master：指定spark集群master地址
--executor-memory：指定任务在运行的时候需要的每一个executor内存大小
--total-executor-cores： 指定任务在运行的时候需要总的cpu核数

5.2 临时调试环境

spark整合HDFS，在hadoop01节点vim /root/spark/conf/spark-env.sh

export HADOOP_CONF_DIR=/opt/bigdata/hadoop/etc/hadoop

分发到其他节点

xsync /root/spark/conf/spark-env.sh /root/spark/conf/spark-env.sh

执行spark-shell --master yarn

sc.textFile("/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

sc.textFile("hdfs://hadoop01:9000/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

5.3 开发环境

构建maven工程，添加pom依赖

 <dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.1.1</version></dependency>
</dependencies>
<build><sourceDirectory>src/main/scala</sourceDirectory><plugins><plugin><groupId>net.alchim31.maven</groupId><artifactId>scala-maven-plugin</artifactId><version>3.2.2</version><executions><execution><goals><goal>compile</goal><goal>testCompile</goal></goals><configuration><args><arg>-dependencyfile</arg><arg>${project.build.directory}/.scala_dependencies</arg></args></configuration></execution></executions></plugin><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-shade-plugin</artifactId><version>2.4.3</version><executions><execution><phase>package</phase><goals><goal>shade</goal></goals><configuration><filters><filter><artifact>*:*</artifact><excludes><exclude>META-INF/*.SF</exclude><exclude>META-INF/*.DSA</exclude><exclude>META-INF/*.RSA</exclude></excludes></filter></filters><transformers><transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"><mainClass></mainClass></transformer></transformers></configuration></execution></executions></plugin></plugins></build>

提交任务使用的脚本

spark-submit \
--class com.mejava.day02.WordCount \
--master yarn \
--executor-memory 1G \
scala_learn-1.0-SNAPSHOT.jar

查看全文

http://www.dtcms.com/wzjs/820942.html

具有价值的做网站哪个做企业网站

做物流网站电话wordpress如何做云盘搜索

原型样网站wordpress 更改用户名密码

南庄建网站湖北民族建设集团网站

临汾花果街网站建设在线设计网站排名

微企业网站模板免费网页设计模板html代码教程图片

网站建设和媒体渠道服装毕业设计代做网站

江西省建设监督网站免费seo营销软件

公众号自己做电影网站淘宝天猫优惠券网站怎么做

外贸网站高端定做山西做网站的

校园网站建设简介电影推荐算法网站开发

网站推广公司成功的经典案例邢台市政建设集团股份有限公司网站

cms系统和网站后台系统php cms

浅析电商网站建设趋势机械电子工程专业知识网

最有名的免费建站平台排行榜wordpress的简单介绍

通州网站建设深圳建设厅网站

重庆网站营销公司域名和空间的定义

宁波网站建设托管免费信息推广网站

镇江网站优化国家信用信息公示系统陕西

网站建设及服务合同书泉州公司建设网站

十大网络平台有哪些常熟seo关键词优化公司

网站区域名怎么注册网站构架图怎么做

六安哪家做网站不错做设计兼职的网站

学校网站建设申请报告包装设计报价明细

深圳营销型网站建设方案服务商品牌官网设计

社区网站开发六安网站建设全包

因酷网站建设广东佛山建筑工程有限公司

百度网站开发业务h5页面制作软件手机版

建设网站是不是要买服务器网站服务器更换

word如何做网站链接石家庄心雨网站建设