当前位置: 首页 > news >正文

hive 面试题

  1. Hive基础概念
    1.1 Hive是什么?

基于Hadoop的数据仓库工具,支持类SQL(HiveQL)查询,底层转换为MapReduce/Tez/Spark任务。

核心功能:数据ETL、查询、分析;定位:OLAP(分析型),非OLTP(事务型)。

1.2 Hive与传统数据库的区别

特性 Hive 传统数据库 (如MySQL)
数据规模 PB级 GB/TB级
延迟 高(分钟级) 低(毫秒级)
事务支持 有限(Hive 0.14+支持ACID) 完善
存储 HDFS 本地磁盘
2. Hive架构与核心组件
2.1 元数据存储(Metastore)

存储表结构、分区、数据位置等信息,生产环境常用MySQL。
模式:内嵌模式、本地模式、远程模式(推荐)。

2.2 HQL执行流程

HQL → 解析器 → 编译器 → 优化器 → 执行引擎 → 结果。
3. Hive数据模型
3.1 内部表 vs 外部表

内部表:数据由Hive管理,删除表时数据连带删除。

外部表:仅删除元数据,数据保留在HDFS。

3.2 分区与分桶

– 分区表示例
CREATE TABLE logs (msg STRING) PARTITIONED BY (dt STRING);

– 分桶表示例
CREATE TABLE user_bucketed (id INT) CLUSTERED BY (id) INTO 4 BUCKETS;

| 维度 | 分区 | 分桶

|适用场景|按日期/地区过滤|JOIN优化、数据倾斜处理

  1. Hive优化技巧
    4.1 存储优化

使用列式存储(ORC/Parquet)和压缩(Snappy)。

合并小文件:
SET hive.merge.mapfiles=true;
4.2 数据倾斜处理

对倾斜Key添加随机前缀:

SELECT user_id, COUNT(*) FROM logs
GROUP BY user_id + CAST(RAND() * 10 AS INT);
5. Hive高级特性
5.1 Hive事务
仅支持分桶表+ORC格式:
CREATE TABLE txn_table (…) STORED AS ORC TBLPROPERTIES (‘transactional’=‘true’);
5.2 Hive on Spark

优势:内存计算、DAG优化,比MapReduce快10倍以上。
6. 常见面试问题
6.1 如何调优Hive查询?

分区/分桶、ORC格式、MapJoin、压缩数据。

6.2 Hive与HBase整合?

通过Hive-HBase Handler映射表,支持双向查询。

  1. 场景应用题
    问题:如何设计每日用户日志分析?
    方案:

按日期分区:PARTITIONED BY (dt STRING)

使用ORC+Snappy压缩。

对高频用户分桶,处理数据倾斜。

http://www.dtcms.com/a/46863.html

相关文章:

  • Android Activity栈关系解析
  • 【朝夕教育】《鸿蒙原生应用开发从零基础到多实战》005-TypeScript 中的枚举
  • 各章节详细总结与 Vue 学习收尾
  • Java——GUI
  • NLP11-命名实体识别(NER)概述
  • Jordan标准型的意义和应用
  • 数据集笔记:新加坡停车费
  • 蜂鸣器使用
  • agent实现路径规划
  • Android 系统 AMS(ActivityManagerService)
  • js算法逆向(逆向获取加密算法) 多体位断点 bp枚举爆破
  • 不同规模企业如何精准选择AI工具: DeepSeek、Grok 和 ChatGPT 三款主流 AI 工具深度剖析与对比
  • 3-6 WPS JS宏 工作表移动复制实例-1(工作表的拆分操作)学习笔记
  • 【Android】类加载器热修复-随记(二)
  • 中科大计算机网络笔记第一章1.8 互联网历史笔记
  • 蓝桥备赛(四)- 数组(下)
  • weblogic 服务器启动位置
  • Vue核心知识:Vue动态权限到按钮完整方案
  • 【SpringCloud】Gateway
  • Llama 2中的Margin Loss:为何更高的Margin导致更大的Loss和梯度?
  • 【Spring】配置文件的使用
  • Windows 上通过 VScode 配置 Docker
  • 如何修改电脑mac地址?
  • 利用 LangChain 和一个大语言模型(LLM)构建一个链条,自动从用户输入的问题中提取相关的 SQL 表信息,再生成对应的 SQL 查询
  • 360个人版和企业版的区别
  • 在C++中如何实现线程安全的队列
  • Qt:窗口
  • CAN总线通信协议学习2——数据链路层之帧格式
  • 【Linux】TCP协议
  • 名词解释:vllm,大模型量化;以及如何在vllm实现大模型量化