当前位置: 首页 > wzjs >正文

先做网站还是app什么是网络营销方案

先做网站还是app,什么是网络营销方案,中国建筑管网平台,外贸公司名字大全洋气大数据集群一个客户端参数引起的任务性能差的问题 背景介绍排查过程任务慢的具体原因Executor中数据内存往磁盘溢写结果数据写入分区路径 分析解决方案 结语&思考 背景介绍 随着业务量不断扩大,平台逐步发展成HDFS多联邦的架构,这个过程中&#xff…

大数据集群一个客户端参数引起的任务性能差的问题

  • 背景介绍
  • 排查过程
    • 任务慢的具体原因
      • Executor中数据内存往磁盘溢写
      • 结果数据写入分区路径
    • 分析
    • 解决方案
  • 结语&思考

背景介绍

随着业务量不断扩大,平台逐步发展成HDFS多联邦的架构,这个过程中,作为平台维护人员也会对参数进行不定期的优化以应对逐渐繁重的存算压力。

最近一个重点保障业务的计算任务无法满足客户的数据时延要求,客户很生气,然后也是各种投诉,然后项目上的同事就拉着一起查了下问题,最终定位到是一个客户端参数在大体量集群下造成的,记录一下

排查过程

在对日志进行分析的时候,主要发现了2个导致执行时间延长的点,分开进行说明:

任务慢的具体原因

在定位的时候,主要有2个地方会导致任务执行时间延长;

Executor中数据内存往磁盘溢写

任务执行过程中,可能会看到下面的这种日志,这样的日志一般是业务问题导致的,内存不够用,临时溢写磁盘,但是对于一个执行时间达到几个小时的任务来说,这个并不是主要的原因
在这里插入图片描述

结果数据写入分区路径

先看一个日志的关键截图,首先是9:31分:
在这里插入图片描述
然后是12:25分的日志
在这里插入图片描述
上图中可以看到在创建分区路径到数据完全写入完成度过了接近3个小时。

分析

因为可以基本定位到结果数据写入分区路径是主要影响任务时长的原因,所以对任务日志进行进一步排查,找找可能得原因;对比慢日志和快日志,有一个明显区别:

// 执行速度比较快的任务日志
2025-03-19 11:35:16,253 INFO org.apache.hadoop.hive.common.FileUtils: Creating directory if it doesn't exist: viewfs://nsX/ns3/path/.hive-staging_hive_2025-03-19_11-35-16_251_7169943507895305206-1
// 执行速度比较慢的任务日志
2025-03-19 07:35:37,022 INFO org.apache.hadoop.hive.common.FileUtils: Creating directory if it doesn't exist: viewfs://ns0/spark-tmp/stagedir/.hive-staging_hive_2025-03-19_07-35-37_020_688260183047175897-1

这个是在执行计算任务的时候指定的数据临时写入的目录路径,如果任务提交节点的客户端配置文件/etc/spark/conf/hive-site.xml中没有指定hive.exec.stagingdir参数,最终hive-staging就会写入到表对应的目录下(这是默认行为)如果客户端配置了这个参数,就会写入到参数指定的目录。

通过日志分析的结果,我们发现任务提交节点的客户端配置配置了该参数的话,任务执行时间久的数量远大于那些没配置该参数的提交节点,对此我们进行了对比:
在这里插入图片描述
进一步分析下来,确定了问题逻辑,因为集群是联邦环境,业务表可能存在于任意一个联邦,如果配置了hive.exec.stagingdir参数,任务执行时临时数据就会写入到一个指定的联邦下,这个时候,如果结果表的路径在其他联邦,那么业务逻辑完成后,就会存在跨联邦复制数据的动作;

而在跨 NameNode 执行 mv 操作时,会涉及到多个 NameNode 之间的元数据交互。源 NameNode 需要告知目标 NameNode 新文件的元数据信息,并且要确保两个 NameNode 之间的数据一致性。这个过程涉及到网络通信和同步操作,会增加额外的延迟,从而导致性能下降。

这就和我们在Linux上移动数据一样,同一个磁盘移动(类比成同联邦下)数据,只是元数据信息更改,不同磁盘移动数据(跨联邦)数据,数据会存在块写入,就会产生大量IO,分布式集群还涉及到网络等交互

解决方案

最终,我们决定删除所有提交节点的hive.exec.stagingdir配置项,这样,任务提交的时候久采用结果表的同联邦进行临时数据的写入,避免了跨联邦的数据移动。

结语&思考

其实,对于普通HDFS集群,配置hive.exec.stagingdir参数是很好的选择,主要有这么几个优点:

  • 临时文件写在一个固定目录,便于管理
  • 任务失败时不会主动删除临时文件,配置指定目录能够更方便的治理废弃数据

然而,对于大型的联邦集群,带宽资源是珍贵的,我们应该尽量减少跨联邦的数据交换,这个时候,保持原本的配置显然就不太合理了,让任务在执行时临时数据写在本联邦下可能是更好的选择,当然这带来的问题就是更高的管理成本,以及定期的失败任务临时目录治理需求


文章转载自:

http://uCHqKYKb.yxwrr.cn
http://dnVXyDcl.yxwrr.cn
http://P6W9ZuyH.yxwrr.cn
http://PZdUxblr.yxwrr.cn
http://K0blRXZs.yxwrr.cn
http://n4AV9n9x.yxwrr.cn
http://3Uj7l3a2.yxwrr.cn
http://s4Y14Vog.yxwrr.cn
http://2sUuKzuu.yxwrr.cn
http://DhKjYeci.yxwrr.cn
http://fcroD1r3.yxwrr.cn
http://LTiaVpoX.yxwrr.cn
http://N0tqsx3L.yxwrr.cn
http://nowSPdIz.yxwrr.cn
http://gtjJostY.yxwrr.cn
http://MwdF9zYt.yxwrr.cn
http://HCOWFZm5.yxwrr.cn
http://BxFBFEYr.yxwrr.cn
http://9S7Nq4ex.yxwrr.cn
http://U9WlgWLC.yxwrr.cn
http://ZD2lGWMH.yxwrr.cn
http://9waz7XSn.yxwrr.cn
http://bkK2nOi7.yxwrr.cn
http://wNQLcQmC.yxwrr.cn
http://clGTn1Lv.yxwrr.cn
http://xsWp8oyK.yxwrr.cn
http://APw2hyN5.yxwrr.cn
http://F9XErjFx.yxwrr.cn
http://RTrySR68.yxwrr.cn
http://JbTv9FBb.yxwrr.cn
http://www.dtcms.com/wzjs/625022.html

相关文章:

  • 腾云建站官网小程序设计用什么软件
  • 网站建设模板案例响应式惠州网站建设开发团队
  • 干净简约高端的网站网站建设书模板
  • 查公司信息的网站产品ui设计公司
  • 设计在线看网站换域名seo
  • ui在线设计网站网课平台搭建
  • 优设网站怎么下载失败营销案例100例
  • 视频网站做板块栏目wordpress 批量设置标签
  • 海口网站开发师招聘太原怎样优化网站建设
  • 广西金兰工程建设管理有限公司网站企业高端wordpress主题
  • 网站站内链接怎么做电脑网站转手机版
  • 工控主机做网站服务器百度推广开户代理
  • 金融营销的网站设计案例湖南建筑公司网站
  • 网站设计联系广东粤建设计院网站
  • ui图标素材网站如何自己设置网站
  • 单页网站案例分析wordpress 分类小工具
  • 男女做那个什么的视频网站芜湖学校网站建设电话
  • 网站设置ico学做快餐的视频网站
  • 怎么做自己的发卡网站6海南电子商务网站
  • 网站首页是什么意思免费建站的网站99
  • 网站服务器设置微网站可以做商城吗
  • 建设ftp网站怎么创建数据库算卦网站开发
  • 一站传媒seo优化wordpress主题 游戏
  • WordPress建影视站平凉市住房和城乡建设厅网站
  • 山西住房城乡建设部网站百货网站建设
  • 网站建设总体流程个人小程序开发多少钱
  • 做论坛推广的网站泰州企业做网站
  • 社团建设制作网站费用会计科目门户网站如何做谷歌seo
  • 兴义市城乡建设局网站深圳旅游
  • 网站服务器搭建XPwordpress优化网站打开速度