当前位置: 首页 > news >正文

hive高频写入小数据,导致hdfs小文件过多,出现查询效率很低的情况

问题描述

hive高频写入小数据,导致hdfs小文件过多,出现查询效率很低的情况

分析过程

先复现现象

select count() from ads.ads_sdd_flow_managemlt_to_ids_mm;–15分钟,小文件10983
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm;–6分钟,小文件10983
select count(
) from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–1分钟,只有一个文件
select max(mm) from ads.ads_sdd_flow_managemlt_to_ids_mm_tmp20250214;–41秒,只有一个文件
所以查询时间长是因为小文件导致

插入实验

实验证明一次插入都会有一个copy文件生成,ads_sdd_flow_management_result_to_ids_mm写入频率很高,所以小文件很多
在这里插入图片描述

解决方法

使用insert overwrite table插入数据,这样子不会产生很多小文件。

http://www.dtcms.com/a/19097.html

相关文章:

  • Deesek:新一代数据处理与分析框架实战指南
  • ROS进阶:使用URDF和Xacro构建差速轮式机器人模型
  • Banana Pi OpenWRT One 官方路由器的第一印象
  • Springboot中使用Elasticsearch(部署+使用+讲解 最完整)
  • 【鸿蒙HarmonyOS Next实战开发】lottie动画库
  • SQLServer联合winform 制作一个简单注册登录系统
  • sap服务器调用DeepSeek参数文件方法
  • MATLAB图像处理:图像特征概念及提取方法HOG、SIFT
  • 124. 二叉树中的最大路径和
  • 均匀面阵抗干扰算法原理及MATLAB仿真
  • 4、C#基于.net framework的应用开发实战编程 - 测试(四、二) - 编程手把手系列文章...
  • vue error Expected indentation of 2 spaces but found 4 indent
  • 基于STM32的智能鱼塘养殖监控系统
  • 铁塔电单车协议对接电单车TCP json协议对接成熟充电桩系统搭建低速充电桩TCP 接口规范
  • 小白win10安装并配置yt-dlp
  • 单元测试整理
  • 【20250215】二叉树:145.二叉树的后序遍历
  • 如何使用Three.js制作3D月球与星空效果
  • 制作Ubuntu根文件
  • Linux基础之文件权限的八进制表示法
  • 一文说清楚什么是Token以及项目中使用Token延伸的问题
  • 数据开放共享和平台整合优化取得实质性突破的智慧物流开源了
  • 【自学笔记】深度学习基础知识点总览-持续更新
  • UNET改进63:添加DTAB模块|强大的局部拟合和全局视角能力
  • Esxi8.0设置nvidia显卡直通安装最新驱动
  • 六、面向对象编程(2)
  • 多模态基础模型训练笔记-第一篇InternVL-g
  • HTTP 与 HTTPS:协议详解与对比
  • 蓝桥杯 Java B 组之简单动态规划(爬楼梯、斐波那契数列)
  • 本地通过隧道连接服务器的mysql