当前位置: 首页 > news >正文

hive高频写入小数据,导致hdfs小文件过多,出现查询效率很低的情况

问题描述

hive高频写入小数据,导致hdfs小文件过多,出现查询效率很低的情况

分析过程

先复现现象

select count() from ads.ads_sdd_flow_managemlt_to_ids_mm;–15分钟,小文件10983
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm;–6分钟,小文件10983
select count(
) from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–1分钟,只有一个文件
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–41秒,只有一个文件
所以查询时间长是因为小文件导致

插入实验

实验证明一次插入都会有一个copy文件生成,ads_sdd_flow_management_result_to_ids_mm写入频率很高,所以小文件很多
在这里插入图片描述

解决方法

使用insert overwrite table插入数据,这样子不会产生很多小文件。

相关文章:

  • Deesek:新一代数据处理与分析框架实战指南
  • ROS进阶:使用URDF和Xacro构建差速轮式机器人模型
  • Banana Pi OpenWRT One 官方路由器的第一印象
  • Springboot中使用Elasticsearch(部署+使用+讲解 最完整)
  • 【鸿蒙HarmonyOS Next实战开发】lottie动画库
  • SQLServer联合winform 制作一个简单注册登录系统
  • sap服务器调用DeepSeek参数文件方法
  • MATLAB图像处理:图像特征概念及提取方法HOG、SIFT
  • 124. 二叉树中的最大路径和
  • 均匀面阵抗干扰算法原理及MATLAB仿真
  • 4、C#基于.net framework的应用开发实战编程 - 测试(四、二) - 编程手把手系列文章...
  • vue error Expected indentation of 2 spaces but found 4 indent
  • 基于STM32的智能鱼塘养殖监控系统
  • 铁塔电单车协议对接电单车TCP json协议对接成熟充电桩系统搭建低速充电桩TCP 接口规范
  • 小白win10安装并配置yt-dlp
  • 单元测试整理
  • 【20250215】二叉树:145.二叉树的后序遍历
  • 如何使用Three.js制作3D月球与星空效果
  • 制作Ubuntu根文件
  • Linux基础之文件权限的八进制表示法
  • 戛纳打破“疑罪从无”惯例,一法国男演员被拒之门外
  • 一种声音·阿甘本|即将到来的中世纪;“新”与“旧”……
  • 悬疑剧背后的女编剧:创作的差异不在性别,而在经验
  • 端午小长假前夜火车票今日开抢,多个技巧提高购票成功率
  • 国防部:中方愿与俄方不断增强两军关系良好发展势头
  • 中国乒协坚决抵制恶意造谣,刘国梁21日将前往多哈参加国际乒联会议