当前位置: 首页 > news >正文

spark on hive 还是 hive on spark?

我们都知道,hive默认的计算引擎是mr,但是mr计算依赖于磁盘,导致计算非常缓慢,开启本地模式会稍微快一点,但是治标不治本,于是有些公司就将计算引擎切换成tez或者spark。

spark作为目前主流的离线计算引擎,非常的方便,所以很多企业都想直接将计算引擎换成spark,但目前hive和spark结合有两种方式Spark On Hive ,还有一种Hive On Spark,到底应该怎么选择呢?

从字面意思不难看出,Spark On Hive 肯定是以spark为主,hive为辅助,而Hive On Spark,却是以hive为主,spark为辅助。

那目前的技术主流肯定是park,所以spark on hive肯定是主流。

那什么是spark on hive 呢?

让 Spark 能够读取 Hive 中创建的元数据(数据库、表结构等),从而可以用 Spark SQL 直接查询 Hive 表。

核心配置​:只需要在 Spark 端进行配置,告诉 Spark 元数据服务在哪里。

Hive on Spark 的现状

Hive on Spark 并没有消失,但它有非常特定的使用场景:

  • 历史遗留系统迁移​:对于那些有大量复杂 HiveQL 脚本、UDF 且迁移到 Spark SQL 成本极高的企业,Hive on Spark 是一个不错的折中方案。它允许他们用最小的改动(只是换一个执行引擎)来提升性能。

  • 对 HiveQL 有强依赖的团队​:如果团队技能栈完全集中在 Hive,短期内转向 Spark SQL 有困难。

核心思想

  • Spark on Hive​:配置 Spark 去连接​ Hive 的元数据服务。

  • Hive on Spark​:配置 Hive 去使用​ Spark 作为其执行引擎。

http://www.dtcms.com/a/469459.html

相关文章:

  • 搞懂数据通信不用愁!网络基础 + 参考模型 + VRP 配置,一篇全搞定
  • 解决MacOS上CLion调试的时候容器的值显示为0的问题
  • Docker快速入门——第一章Docker入门
  • 建站助手官网淘宝seo具体优化方法
  • 邯郸网站建设哪儿好网站建设参考文献英文书籍
  • STM32 串口收发数据-中断的方式
  • k8s ingress-nginx 学习
  • 【含文档+PPT+源码】基于springboot的旅游路线推荐系统的设计与实现
  • 嘉兴seo网站优化竞价托管的注意事项
  • K8S 概念、安装与核心工作机制详解
  • 做网站需要公司有哪些网站最新点击量排名
  • VUE 开发实例 一则
  • jmeter使用之--MD5加密
  • ESim电工仿真APP使用说明书
  • 【碎片化学习】 Apache JMeter 取样器指南:从入门到精通
  • 【无标题】生活琐记(7)
  • 苍穹外卖day04总结
  • Java Redis “核心基础”面试清单(含超通俗生活案例与深度理解)
  • jmeter中使用正则表达式提取器传递参数
  • 基于大数据的学习资源推送系统的设计与实现 _django
  • 朝阳双桥网站建设竞争对手网站分析
  • 江阴招聘网站建设学徒黄页网页的推广网站
  • C 语言11:输入方法全解析
  • ASP Session详解
  • 如何在 Linux_Ubuntu 上安装 Qt 5:详细教程
  • 前端学习 JavaScript(3)json初识
  • StartAllBack(Win11开始菜单增强工具) 绿色版
  • 大雾天气下摄像头图像去雾技术详解
  • MySQL数据库基础(2)
  • 大模型文生图技术解析:从语言到视觉的智能跨越