当前位置: 首页 > wzjs >正文

一个网站做数据分析要多少钱软文营销文章案例

一个网站做数据分析要多少钱,软文营销文章案例,大型网站搜索怎么做的,app制作团队1. 什么是 Spark on YARN? Spark on YARN 是 Apache Spark 的一种部署模式,允许 Spark 应用程序在 Hadoop YARN 集群上运行,充分利用 YARN 的资源管理和调度能力。这种模式将 Spark 与 Hadoop 生态深度集成,使企业能够在同一集群…
1. 什么是 Spark on YARN?

Spark on YARN 是 Apache Spark 的一种部署模式,允许 Spark 应用程序在 Hadoop YARN 集群上运行,充分利用 YARN 的资源管理和调度能力。这种模式将 Spark 与 Hadoop 生态深度集成,使企业能够在同一集群上统一管理批处理、流处理、交互式查询等多种工作负载。

2. 核心优势
  1. 资源统一管理

    • 与 Hadoop 共享集群资源,避免资源孤岛(如 MapReduce、Hive、Spark 可共存)。
    • YARN 根据工作负载动态分配资源,提高集群利用率。
  2. 简化运维

    • 依托 YARN 的高可用性(HA)和资源隔离机制,降低运维复杂度。
    • 支持与现有 Hadoop 集群无缝集成,无需额外部署集群管理器。
  3. 灵活的资源分配

    • 支持 内存 / CPU 细粒度控制,通过 spark-submit 参数调整资源分配。
    • 可配置多队列(如生产队列、测试队列),实现资源隔离。
  4. 丰富的调度策略

    • 继承 YARN 的调度器(容量调度器、公平调度器),满足不同业务需求。
3. 架构组件

Spark on YARN 的架构涉及三个核心组件:

  1. YARN 组件

    • ResourceManager (RM):全局资源管理器,负责分配集群资源。
    • NodeManager (NM):每个节点的代理,管理容器(Container)生命周期。
    • 调度器:如容量调度器(Capacity Scheduler)或公平调度器(Fair Scheduler)。
  2. Spark 组件

    • Driver:应用程序的主进程,负责调度任务。
    • Executor:运行在容器中的工作进程,执行具体计算任务。
  3. 通信流程

    • Spark 应用通过 spark-submit 向 YARN RM 提交请求。
    • RM 分配 Container 并启动 ApplicationMaster(Spark Driver)。
    • Driver 向 RM 注册并请求资源,然后与 NM 通信启动 Executor。
4. 部署模式

Spark on YARN 支持两种部署模式:

  1. Client 模式

    • Driver 运行在客户端
      • 适用于交互式应用(如 Spark Shell、Jupyter Notebook)。
      • Driver 在提交作业的客户端进程中运行,直接接收任务输出。
    • 提交命令

      bash

      spark-submit \--master yarn \--deploy-mode client \--num-executors 10 \--executor-memory 4g \my-app.jar
      
  2. Cluster 模式

    • Driver 运行在集群中
      • 适用于生产环境,避免客户端与集群长时间连接。
      • Driver 作为 YARN 中的一个 ApplicationMaster 运行,与客户端分离。
    • 提交命令

      bash

      spark-submit \--master yarn \--deploy-mode cluster \--num-executors 10 \--executor-memory 4g \my-app.jar
      
5. 资源配置参数

通过 spark-submit 或 spark-defaults.conf 配置:

参数说明
--num-executors启动的 Executor 数量(默认 2)。
--executor-memory每个 Executor 的内存大小(如 4g)。
--executor-cores每个 Executor 的 CPU 核心数(默认 1)。
--driver-memoryDriver 的内存大小(默认 1g)。
--queue指定 YARN 队列名称(如 defaultprod)。
--conf spark.yarn.maxAppAttempts应用最大重试次数(默认 2)。
--conf spark.yarn.executor.memoryOverhead每个 Executor 的堆外内存(默认 executorMemory * 0.10)。
6. 典型应用场景
  1. 混合工作负载集群

    • 在同一 Hadoop 集群上同时运行 Spark、MapReduce、Hive 等作业。
  2. 企业级数据平台

    • 利用 YARN 的资源隔离特性,为不同部门分配专用队列(如财务、研发)。
  3. 大规模数据处理

    • 处理 PB 级数据,通过 YARN 动态调整资源应对峰值负载。
7. 监控与故障排查
  1. YARN Web UI

    • http://resourcemanager:8088:查看所有应用状态、资源使用情况。
  2. Spark Web UI

    • Driver 运行时的 Web UI(默认端口 4040):

      plaintext

      http://driver-node:4040  # Client 模式
      http://application-master-node:4040  # Cluster 模式
      
  3. 日志查看

    • YARN 应用日志:

      bash

      yarn logs -applicationId <application_id>
      
8. 优缺点
优点缺点
与 Hadoop 生态无缝集成依赖 YARN,增加部署复杂度
资源利用率高任务启动延迟较高(需等待 Container 分配)
支持高可用性需深入理解 YARN 配置和调优
多租户资源隔离对网络和磁盘 I/O 敏感
9. 配置步骤
  1. 确保 YARN 正常运行

    • 启动 HDFS 和 YARN:

      bash

      start-dfs.sh
      start-yarn.sh
      
  2. 配置 Spark

    • 编辑 $SPARK_HOME/conf/spark-env.sh

      bash

      export HADOOP_CONF_DIR=/path/to/hadoop/etc/hadoop  # Hadoop 配置目录
      

  3. 提交作业

    bash

    spark-submit \--master yarn \--deploy-mode cluster \--class org.apache.spark.examples.SparkPi \$SPARK_HOME/examples/jars/spark-examples_*.jar \100
    

http://www.dtcms.com/wzjs/488264.html

相关文章:

  • 网站模板源代码商丘seo外包
  • wordpress多站点site id广告公司接单软件
  • 山西做网站的公司哪个好夜夜草
  • 盐城做网站的公司长沙疫情最新数据消息
  • 网站建设和网站推广seo整站优化吧
  • 外贸seo网站制作百度账号查询
  • 医院网站优化深圳网页设计
  • 做爰免费网站北京seo
  • 定制系统软件开发网站推广优化排名seo
  • 怎样把网站推广出去轻松seo优化排名 快排
  • 网站专业建设公司seo优缺点
  • 梅州做网站多少钱推广计划方案模板
  • 微信营销ppt嘉兴seo外包公司费用
  • 做外墙资料的网站宁波seo托管公司
  • 怎么把html模板导入wordpress上海关键词排名优化公司
  • 网站开发网页超链接路径企业培训机构有哪些
  • 重庆 网站 建设 公司软文营销模板
  • 开发安卓应用seo培训班 有用吗
  • wordpress无法连接数据库网站优化推广的方法
  • 房产经纪人如何做网站吸客北京seo做排名
  • 新闻列表做的最好的网站如何在百度发布信息推广
  • 策划书格式模板seo推广费用
  • 做陶瓷公司网站百度经验
  • 国外做建筑平面图的网站优秀网站设计赏析
  • 织梦网站模板免费下载自媒体平台
  • 燕莎做网站如何创建自己的个人网站
  • web前端只做网站么成都seo优化排名公司
  • 网站程序源码杭州优化公司在线留言
  • 公司做网站都需要什么流程免费b站推广网站2023
  • 南宁两学一做党课网站百度推广价格