当前位置: 首页 > wzjs >正文

晋江网站建设哪家好上海营销公司

晋江网站建设哪家好,上海营销公司,企业网站的推广方式,长沙app网站开发背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive 问题:单表日800亿数据量,产生过多的小文件,影响Impala查询 解决:对hive小文件进行合并, ALTER TABLE lt_ipsy_xdr_temp PARTITION (day20230829, hour9,type…

背景:Flink数据写入到stage层,然后再入ods层,中间导致hive数据实时性不强,随后做优化,Flink之间以orc格式写入到hive

问题:单表日800亿数据量,产生过多的小文件,影响Impala查询

解决:对hive小文件进行合并,

ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

目前大数据平台hdfs数据存储情况:

数据仓库中的表:
1.stg层是把flink应用程序写入的数据load进入的;
2.ods层表名称中包含ai的表是从mysql导入的; 
/_SCRATCH0 这些目录是sqoop 把mysql数据导入hive时生成的临时目录,可以删除。
3.stg 和 ods 的 tb_bu_dc_monitor_day 是外部表,其他层的表都是内部表;
4.stg层是原始数据,没有经过压缩处理,ods及以后其他各层都是orc格式
 

使用hive concatenate (外部表不可用,内部表可用,orc可用,分桶表不可用)
使用方式:

#1.设置文件最小大小(需要设置,否则合并操作可能会不理想):
SET mapreduce.input.fileinputformat.split.maxsize=256
#对于非分区表
alter table A concatenate;
#2.对于分区表
ALTER TABLE lt_ipsy_xdr_temp PARTITION (day=20230829, hour=9,type=4) CONCATENATE;

因为分桶表不适用,所以可以采用覆写的方式

INSERT OVERWRITE TABLE table 

PARTITION (day=20230908,hour=9,datatype=4)
SELECT 
a,b,c,d,e
FROM table 
where day=20230908 and hour=9 and datatype=4;

http://www.dtcms.com/wzjs/482445.html

相关文章:

  • 怎么做跳转不影响原网站排名免费网站服务器
  • 网优 是什么网站关键词优化排名公司
  • 中小型网站站内搜索实现市场营销策划方案书
  • 互联网app网站建设方案模板下载企业建设网站公司
  • 网站注册商标属于哪一类竞价托管推广哪家好
  • angularjs 网站开发数据分析网站
  • 未注册网站苏州优化排名seo
  • 如何建网站快捷方式网站策划书怎么写
  • 日照网站建设官方网站专业网站优化
  • cpa推广做网站小时seo
  • seo做的比较好的网站的几个特征武汉网络推广公司
  • 如何做医疗网站的专题页软文广告代理平台
  • dt高端网站设计谷歌优化方法
  • 淘宝网站运营的工作怎么做成人技术培训班有哪些种类
  • 国家备案网网站排名优化专业定制
  • 工业设计网站有那些seo关键词优化推广哪家好
  • 网站专题设计稿知名的搜索引擎优化
  • 做网站建设哪家效益快福州百度推广排名
  • wordpress用户中心主题合肥百度快速排名优化
  • 资源网站推广网站优化师
  • 黄山手机网站建设公司排名推广资源seo
  • 网站建设策划书的撰写销售营销方案100例
  • 网站模板用什么软件做建一个网站需要多少钱?
  • 做网站直播平台网站内容管理系统
  • 网站建设的案例教程视频seo可以从哪些方面优化
  • 江阴市网站建设东莞网站推广营销
  • wordpress文章与页面seo刷网站
  • 站长工具之家自媒体135网站免费下载安装
  • 做网站App价格多少在线优化网站
  • 网站建设捌金手指花总十七网盘搜索神器