当前位置: 首页 > news >正文

spark-Catalyst 优化器和 Tungsten 执行引擎介绍

目录

  • 一、Catalyst 优化器是什么?
      • 1.定义
      • 2. 作用
      • 3. 工作流程
      • 4. 特点
  • 二、Tungsten 执行引擎是什么?
      • 1. 定义
      • 2. 作用
      • 3. Tungsten 主要优化点
      • 4.代码生成示例
  • 三、两者关系总结
  • 四、举个简单例子

Catalyst 优化器Tungsten 执行引擎 是 Spark SQL 的两个核心组件,理解它们对深入掌握 Spark SQL 的性能优化非常关键。

一、Catalyst 优化器是什么?

1.定义

Catalyst 是 Spark SQL 的查询优化框架,负责将用户的 SQL 查询或者 DataFrame 操作转换成高效的执行计划。它是一个基于规则的、可扩展的查询优化器

2. 作用

  • 解析后的逻辑查询计划(Logical Plan)进行优化生成更高效的逻辑计划和物理计划
  • 支持多种优化策略,包括谓词下推、列裁剪、常量折叠、子查询消除、连接重排序等。
  • 通过规则和策略的组合,自动优化查询,无需用户手动干预。
    • 常量折叠(Constant Folding):将表达式中常量计算提前。
    • 谓词下推(Predicate Pushdown):将过滤条件尽可能早地应用,减少数据量。
    • 投影剪裁(Projection Pruning):只读取和处理必要的列。
    • 子查询消除连接重排序等。
  • </
http://www.dtcms.com/a/206026.html

相关文章:

  • 测量尺子:多功能测量工具,科技改变生活
  • Ubuntu 新建用户
  • Golang 内存模型小结
  • Docker实战
  • Linux下的Socket编程
  • 小白的进阶之路系列之三----人工智能从初步到精通pytorch计算机视觉详解上
  • React+Taro 微信小程序做一个页面,背景图需贴手机屏幕最上边覆盖展示
  • 桥接智能制造:PROFINET与Devicenet混合架构赋能汽车擦净机器人升级
  • java每日精进 5.22【多数据源(读写分离)、事务】
  • 觉醒三境:在敦煌的风沙中寻找生命的纹路
  • 火山引擎火山云带宽价格
  • 【大模型面试每日一题】Day 26:从伦理角度,大模型可能存在哪些潜在风险?技术上如何实现内容安全控制(如RLHF、红队测试)?
  • Ubuntu-多显示器黑屏问题及nvidia显卡驱动安装
  • 当物联网“芯”闯入纳米世界:ESP32-S3驱动的原子力显微镜能走多远?
  • 自制操作系统day7(获取按键编码、FIFO缓冲区、鼠标、键盘控制器(Keyboard Controller, KBC)、PS/2协议)
  • 鸿蒙Flutter实战:23-混合开发详解-3-源码模式引入
  • FreeBSD14.2因为爆内存而导致Xfce4视窗被卡,桌面变黑色,只能看到鼠标在窗体中心,鼠标无反应,键盘无反应
  • 自制操作系统day8 (鼠标数据取得、通往32位模式之路、A20GATE、切换到保护模式、控制寄存器cr0-cr4以及cr8、ALIGNB)
  • 创建信任所有证书的HttpClient:Java 实现 HTTPS 接口调用,等效于curl -k
  • 【Java面试】从Spring Boot到Kafka:技术栈与业务场景全面剖析
  • 养生新策:五维开启健康生活
  • 青少年编程与数学 02-020 C#程序设计基础 01课题、C#编程概要
  • 现代生活健康养生新策略
  • STM32:0.96寸OLED屏驱动全解析——SSD1306 I2C通信与显存配置指南
  • 二十、面向对象底层逻辑-ServiceRegistry接口设计集成注册中心
  • AI 多 Agent 图形化开发深度解析:iVX IDE 与主流产品技术架构对比研究
  • 在 Matter.js 物理引擎中,isSensor 布尔属性的使用
  • 【AI问答】Java类中,一些变量设置了@NotNull,怎么在调用内部方法时校验变量是否为空
  • Ubuntu20.04的安装(VMware)
  • LInux—shell编程