当前位置: 首页 > wzjs >正文

宿迁建设局网站广州抖音seo

宿迁建设局网站,广州抖音seo,开发网站找什么公司,六安电商网站建设哪家好背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive 问题:单表日800亿数据量,产生过多的小文件,影响Impala查询 解决:对hive小文件进行合并, ALTER TABLE lt_ipsy_xdr_temp PARTITION (day20230829, hour9,type…

背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive

问题:单表日800亿数据量,产生过多的小文件,影响Impala查询

解决:对hive小文件进行合并,

ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

目前大数据平台hdfs数据存储情况:

数据仓库中的表:
1.stg层是把flink应用程序写入的数据load进入的;
2.ods层表名称中包含ai的表是从mysql导入的; 
/_SCRATCH0 这些目录是sqoop 把mysql数据导入hive时生成的临时目录,可以删除。
3.stg 和 ods 的 tb_bu_dc_monitor_day 是外部表,其他层的表都是内部表;
4.stg层是原始数据,没有经过压缩处理,ods及以后其他各层都是orc格式
 

使用hive concatenate (外部表不可用,内部表可用,orc可用,分桶表不可用)
使用方式:

#1.设置文件最小大小(需要设置,否则合并操作可能会不理想):
SET mapreduce.input.fileinputformat.split.maxsize=256
#对于非分区表
alter table A concatenate;
#2.对于分区表
ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

因为分桶表不适用,所以可以采用覆写的方式

INSERT OVERWRITE TABLE table 

PARTITION (day=20230908,hour=9,datatype=4)
SELECT 
a,b,c,d,e
FROM table 
where day=20230908 and hour=9 and datatype=4;

http://www.dtcms.com/wzjs/196231.html

相关文章:

  • 珠海网站建设的公司排名seo主管招聘
  • 学校网站设计首页网站建设报价单模板
  • 网站设计机构文档杭州网站优化公司
  • 手机网站域名m.推广软件赚钱违法吗
  • 纯净水企业怎样做网站指数是什么
  • 网红营销的优势手机优化软件排行
  • 网站开启速度腾讯推广一次广告多少钱
  • 网站开发需要如何压缩代码武汉网站关键词推广
  • 南京做网站的百度识图查另一半情头
  • 服务器做两个网站淘宝怎么优化关键词步骤
  • wordpress 模板下载失败百度首页排名优化公司
  • 个人网站有哪些专业做网络推广的公司
  • 开发一个app需要哪些技术排名优化百度
  • 万网代备案系统泰安seo网络公司
  • 注册个人网站的方法网站建设总结
  • google网站搜索网络竞价
  • 深圳企业网站制作公司怎样电商网站规划
  • wordpress 多说头像seo收费低
  • 做生蚝批发登录什么网站好新榜数据平台
  • 幼儿园网站模板怎么做的网络营销ppt
  • 学校网站建设系统爱站网ip反域名查询
  • 上海营销网站推广多合肥百度搜索排名优化
  • 免费注册网站平台凡科建站app
  • 承包工程在哪个网站百度合作平台
  • 福建建设执业资格注册中心网站珠海seo关键词排名
  • 主题设计师站国内外搜索引擎大全
  • 电白网站建设百度seo推广方案
  • 网站域名过期不续费网络营销的策划流程
  • 网站想自己做怎么弄线上推广的方式
  • 网站如何引导seo推广任务小结