当前位置: 首页 > wzjs >正文

甘肃省建设厅执业资格注册中心网站指数基金投资指南

甘肃省建设厅执业资格注册中心网站,指数基金投资指南,昆明企业做网站,网站建设长沙背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive 问题:单表日800亿数据量,产生过多的小文件,影响Impala查询 解决:对hive小文件进行合并, ALTER TABLE lt_ipsy_xdr_temp PARTITION (day20230829, hour9,type…

背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive

问题:单表日800亿数据量,产生过多的小文件,影响Impala查询

解决:对hive小文件进行合并,

ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

目前大数据平台hdfs数据存储情况:

数据仓库中的表:
1.stg层是把flink应用程序写入的数据load进入的;
2.ods层表名称中包含ai的表是从mysql导入的; 
/_SCRATCH0 这些目录是sqoop 把mysql数据导入hive时生成的临时目录,可以删除。
3.stg 和 ods 的 tb_bu_dc_monitor_day 是外部表,其他层的表都是内部表;
4.stg层是原始数据,没有经过压缩处理,ods及以后其他各层都是orc格式
 

使用hive concatenate (外部表不可用,内部表可用,orc可用,分桶表不可用)
使用方式:

#1.设置文件最小大小(需要设置,否则合并操作可能会不理想):
SET mapreduce.input.fileinputformat.split.maxsize=256
#对于非分区表
alter table A concatenate;
#2.对于分区表
ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

因为分桶表不适用,所以可以采用覆写的方式

INSERT OVERWRITE TABLE table 

PARTITION (day=20230908,hour=9,datatype=4)
SELECT 
a,b,c,d,e
FROM table 
where day=20230908 and hour=9 and datatype=4;

http://www.dtcms.com/wzjs/452513.html

相关文章:

  • 小说网站怎么做seo昆明抖音推广
  • 成人本科报名费一般多少钱seo站内优化站外优化
  • 当建设部门网站最近新闻有哪些
  • 厦门网站制作方案国际机票搜索量大涨
  • 网页添加兼容性站点文件关键词搜索工具
  • 国外网站翻墙怎么做18种最有效推广的方式
  • 苏州市城乡建设局网站网络关键词排名软件
  • 上海豪宅装修公司排名seo网站诊断分析报告
  • 自主做网站seo海外
  • 网站建设如何深圳网络推广怎么做
  • 手机网站做seo网页制作的基本步骤
  • 关于单位网站建设的请示seo黑帽培训
  • 创建网站的费用网络推广工具有哪些
  • 国外开源代码网站线上宣传渠道有哪些
  • 网站添加文字大小一键免费建站
  • 哪些网站做彩票预测途径seo推广小分享
  • 如何关闭网站 备案百度app登录
  • html网页代码完整代码seo计费系统源码
  • 胶州网站建设公司网页制作的软件有哪些
  • 有经验的合肥网站建设网页设计作品
  • 快速网站优化哪家好网站seo优化方法
  • 北京网站搭建服务网站设计费用明细
  • 什么网站做一手房比较好百度网站推广
  • 做b网站关键词百度云
  • 虚拟货币做空网站东莞网络公司代理
  • 海口网站制作公司地推app接任务平台
  • 装饰网站建设策划书百度官方网站网址
  • 怎么做图片seo服务商技术好的公司
  • 潍坊 网站建设网络推广公司如何做
  • 机关党建网站建设策划深圳网站优化软件