当前位置：首页 > wzjs >正文

中网站建设快手seo

wzjs 2025/8/13 11:37:00

中网站建设,快手seo,怎样做网站和网站的友情链接,建立网站后怎样收费吗spark核心概念 spark集群架构 spark集群安装部署 spark-shell的使用通过IDEA开发spark程序 1. Spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processingspark是针对于大规模数据处理的统一分析引擎 spark是在Hadoop基础上的改进&…

spark核心概念
spark集群架构
spark集群安装部署
spark-shell的使用
通过IDEA开发spark程序

1. Spark是什么

Apache Spark™ is a unified analytics engine for large-scale data processingspark是针对于大规模数据处理的统一分析引擎

spark是在Hadoop基础上的改进，是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。 spark是基于内存计算框架，计算速度非常之快

输入计算输出

分发计算收集

第一步保存中间结果第二步

2. Spark

2.1 速度快

相对于hadoop来说，有使用hadoop MR经验会有体会

运行速度提高100倍

Apache Spark使用最先进的DAG调度程序，查询优化程序和物理执行引擎，实现批量和流式数据的高性能。
spark比mapreduce快的2个主要原因

基于内存

mapreduce任务后期再计算的时候，每一个job的输出结果会落地到磁盘，后续有其他的job需要依赖于前面job的输出结果，这个时候就需要进行大量的磁盘io操作。性能就比较低。 spark任务后期再计算的时候，job的输出结果可以保存在内存中，后续有其他的job需要依赖于前面job的输出结果，这个时候就直接从内存中获取得到，避免了磁盘io操作，性能比较高

进程与线程

mapreduce任务以进程的方式运行在yarn集群中，比如程序中有100个MapTask，一个task就需要一个进程，这些task要运行就需要开启100个进程。 spark任务以线程的方式运行在进程中，比如程序中有100个MapTask，后期一个task就对应一个线程，这里就不在是进程，这些task需要运行，这里可以极端一点：只需要开启1个进程，在这个进程中启动100个线程就可以了。进程中可以启动很多个线程，而开启一个进程与开启一个线程需要的时间和调度代价是不一样。开启一个进程需要的时间远远大于开启一个线程。

2.2 易用性

可以快速去编写spark程序通过 java/scala/python/R/SQL等不同语言

2.3 通用性

spark框架不在是一个简单的框架，可以把spark理解成一个生态系统，它内部是包含了很多模块，基于不同的应用场景可以选择对应的模块去使用

sparksql、api

通过sql去开发spark程序做一些离线分析

sparkStreaming

主要是用来解决公司有实时计算的这种场景

Mlib

它封装了一些机器学习的算法库

Graphx 图计算

2.4 兼容性

spark程序就是一个计算逻辑程序，这个任务要运行就需要计算资源（内存、cpu、磁盘），哪里可以给当前这个任务提供计算资源，就可以把spark程序提交到哪里去运行

standAlone

少量的节点，比较纯粹的spark任务

它是spark自带的集群模式，整个任务的资源分配由spark集群的老大Master负责

yarn

yarn有接口，可以对接其他的计算框架 mr flink spark java

可以把spark程序提交到yarn中运行，整个任务的资源分配由yarn中的老大ResourceManager负责

mesos

云原生支持的比较快

它也是apache开源的一个类似于yarn的资源调度平台。

3. Spark与Yarn

mesos standalone yarn cpu 磁盘内存

spark提交任务到yarn

Driver

它会执行客户端写好的main方法，它会构建一个名叫SparkContext对象
Task

spark任务是以task线程的方式运行在worker节点对应的executor进程中

spark是调用了yarn的接口，将任务提交给yarn来执行计算，实际的计算逻辑就是我们driver中的代码

4. Spark集群安装部署

事先搭建好hadoop分布式环境

下载安装包
解压安装包到指定的安装目录/root
重命名解压目录

mv spark-3.1.1-bin-hadoop3.2 spark
修改配置文件，进入到spark的安装目录下对应的conf文件夹

vim spark-env.sh ( mv spark-env.sh.template spark-env.sh)

vim slaves ( mv slaves.template salves)
```
#指定spark集群的worker节点
hadoop01
hadoop02
hadoop03
```
分发安装目录到其他机器
```
xsync /root/spark /root/spark
```
8、修改spark环境变量(也可以不配置，这里主要是为了)

vim /etc/profile
```
export SPARK_HOME=/root/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
```

当启动好spark集群之后，可以访问这样一个地址http://hadoop01:8080

5. Spark怎么使用

5.1 生产环境

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
examples/jars/spark-examples_2.12-3.1.1.jar \
10

##参数说明
--class：指定包含main方法的主类
--master：指定spark集群master地址
--executor-memory：指定任务在运行的时候需要的每一个executor内存大小
--total-executor-cores： 指定任务在运行的时候需要总的cpu核数

5.2 临时调试环境

spark整合HDFS，在hadoop01节点vim /root/spark/conf/spark-env.sh

export HADOOP_CONF_DIR=/opt/bigdata/hadoop/etc/hadoop

分发到其他节点

xsync /root/spark/conf/spark-env.sh /root/spark/conf/spark-env.sh

执行spark-shell --master yarn

sc.textFile("/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

sc.textFile("hdfs://hadoop01:9000/words.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

5.3 开发环境

构建maven工程，添加pom依赖

 <dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.1.1</version></dependency>
</dependencies>
<build><sourceDirectory>src/main/scala</sourceDirectory><plugins><plugin><groupId>net.alchim31.maven</groupId><artifactId>scala-maven-plugin</artifactId><version>3.2.2</version><executions><execution><goals><goal>compile</goal><goal>testCompile</goal></goals><configuration><args><arg>-dependencyfile</arg><arg>${project.build.directory}/.scala_dependencies</arg></args></configuration></execution></executions></plugin><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-shade-plugin</artifactId><version>2.4.3</version><executions><execution><phase>package</phase><goals><goal>shade</goal></goals><configuration><filters><filter><artifact>*:*</artifact><excludes><exclude>META-INF/*.SF</exclude><exclude>META-INF/*.DSA</exclude><exclude>META-INF/*.RSA</exclude></excludes></filter></filters><transformers><transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer"><mainClass></mainClass></transformer></transformers></configuration></execution></executions></plugin></plugins></build>

提交任务使用的脚本

spark-submit \
--class com.mejava.day02.WordCount \
--master yarn \
--executor-memory 1G \
scala_learn-1.0-SNAPSHOT.jar

查看全文

http://www.dtcms.com/wzjs/329282.html

怎样在网站上做外贸广告联盟有哪些

深圳微信网站建设公司百度seo视频教程

做电影网站需要服务器nba最新交易新闻

vue.js 可以做网站吗镇江百度推广

web怎么制作网页谷歌seo搜索引擎

电子商务网站的设计与实现今天微博热搜前十名

wordpress 前端开发大泽山seo快速排名

如何查看网站在哪里做的ue5培训机构哪家强

建立一个网站需要会什么软件天琥设计培训学校官网

利用万网做网站seo推广专员工作好做吗

什么叫网站优化国外免费网站域名服务器查询软件

java做网站下载图片产品推广软文500字

公众平台如何做网站中国国家培训网

青海网站建设西宁网络科技公司seo就业前景

国外采购网站大全拉新平台哪个好佣金高

织梦网站地图如何做网站制作app

wordpress qq微信登陆竞价托管优化公司

懒人建站游戏推广赚佣金的平台

邯郸移动网站建设报价九易建网站的建站流程

做推广比较好的网站关键词分析工具

wordpress 删除站点民宿平台搜索量上涨

如何提升网站的流量永州网站seo

常用网站开发工具有哪些深圳关键词自动排名

网站制作公司资质5月疫情第二波爆发

个人网站设计模版htmlseo快速排名百度首页

怎样登陆网站后台百度搜索大数据查询

保定网站设计推荐互联网平台推广是什么意思

东莞公司网站设计网站开发技术

重庆市人民政府网网站推广优化外链

江门住房与城乡建设局官方网站网站seo排名培训