当前位置: 首页 > news >正文

SQLMesh 内置宏详解:@PIVOT等常用宏的核心用法与示例

本文系统解析 SQLMesh 的四个核心内置宏,涵盖行列转换的 @PIVOT、精准去重的 @DEDUPLICATE、灵活生成日期范围的 @DATE_SPINE,以及动态表路径解析的 @RESOLVE_TEMPLATE。通过真实案例演示参数配置与 SQL 渲染逻辑,并对比宏调用与传统 SQL 的差异,助您高效构建标准化数据处理流程。

SQLMesh 提供了一系列强大的内置宏,用于简化 SQL 查询和数据处理任务。本文将深入介绍四个常用宏:

  1. @PIVOT:将长格式数据转换为宽格式(行列转换)。
  2. @DEDUPLICATE:基于分区列和排序条件去重。
  3. @DATE_SPINE:生成日期范围表,便于时间序列分析。
  4. @RESOLVE_TEMPLATE:动态解析表路径,适用于云存储场景。

通过实际示例,我们将展示这些宏如何提升 SQL 查询的灵活性和效率。在这里插入图片描述

在这里插入图片描述

1. @PIVOT:行列转换利器

功能概述

@PIVOT 用于将长格式数据(单列存储多个值)转换为宽格式(每行对应多个列)。常用于统计分析,如订单状态分布、用户行为分类等。

参数说明

参数说明默认值
column要透视的列必填
values用于透视的值列表必填
alias是否为结果列添加别名true
agg聚合函数(如 SUM, COUNTSUM
cmp比较运算符(=, >, <=
prefix / suffix别名前缀/后缀
then_value / else_value条件成立/不成立时的值1 / 0
quote是否对别名加引号true
distinct聚合时是否去重false

示例

假设有一个 rides 表,记录骑行订单状态(cancelled, completed),我们希望统计每日各状态的订单数:

SQLMesh 宏写法
SELECTdate_day,@PIVOT(status, ['cancelled', 'completed'])
FROM rides
GROUP BY 1
渲染后的 SQL
SELECTdate_day,SUM(CASE WHEN status = 'cancelled' THEN 1 ELSE 0 END) AS "'cancelled'",SUM(CASE WHEN status = 'completed' THEN 1 ELSE 0 END) AS "'completed'"
FROM rides
GROUP BY 1
进阶用法

如果只想统计 completed 状态的订单数,并计算取消率:

SELECTdate_day,@PIVOT(status, ['completed'], agg := 'COUNT') AS completed_orders,@PIVOT(status, ['cancelled'], agg := 'COUNT') AS cancelled_orders,@PIVOT(status, ['cancelled'], agg := 'COUNT') * 1.0 / NULLIF(@PIVOT(status, ['completed'], agg := 'COUNT'), 0) AS cancellation_rate
FROM rides
GROUP BY 1

2. @DEDUPLICATE:高效去重

功能概述

@DEDUPLICATE 使用窗口函数 ROW_NUMBER() 对数据进行去重,适用于需要保留每组最新/最旧记录的场景。

参数说明

参数说明示例
relation表名或 CTEmy_table
partition_by分区列[id, event_date]
order_by排序条件['event_date DESC', 'status ASC']

示例

假设 my_table 存储用户事件日志,我们希望保留每个用户每天的最新记录:

SQLMesh 宏写法
WITH raw_data AS (@DEDUPLICATE(my_table, [id, CAST(event_date AS DATE)], ['event_date DESC', 'status ASC'])
)
SELECT * FROM raw_data
渲染后的 SQL
WITH "raw_data" AS (SELECT *FROM "my_table" AS "my_table"QUALIFY ROW_NUMBER() OVER (PARTITION BY "id", CAST("event_date" AS DATE) ORDER BY "event_date" DESC, "status" ASC) = 1
)
SELECT * FROM "raw_data" AS "raw_data"

3. @DATE_SPINE:生成日期范围表

功能概述

@DATE_SPINE 用于生成连续的日期序列,常用于时间序列分析、数据补全等场景。

参数说明

参数说明示例
datepart时间粒度(day, week, month'day'
start_date起始日期'2024-01-01'
end_date结束日期'2024-01-16'

示例

生成 2024 年 1 月 1 日至 1 月 16 日的日期表:

SQLMesh 宏写法
WITH discount_promotion_dates AS (@DATE_SPINE('day', '2024-01-01', '2024-01-16')
)
SELECT * FROM discount_promotion_dates
渲染后的 SQL(DuckDB)
WITH "discount_promotion_dates" AS (SELECT "_exploded"."date_day" AS "date_day"FROM UNNEST(CAST(GENERATE_SERIES(CAST('2024-01-01' AS DATE), CAST('2024-01-16' AS DATE), INTERVAL '1' DAY) AS DATE[])) AS "_exploded"("date_day")
)
SELECT "discount_promotion_dates"."date_day" AS "date_day"
FROM "discount_promotion_dates" AS "discount_promotion_dates"

4. @RESOLVE_TEMPLATE:动态表路径解析

功能概述

@RESOLVE_TEMPLATE 用于动态生成表路径,适用于云存储(如 S3)或引擎元数据管理。

参数说明

参数说明示例
template字符串模板's3://bucket/@{catalog_name}/@{schema_name}/@{table_name}'
mode返回类型(literaltableliteral

示例

在模型定义中动态指定存储路径:

SQLMesh 宏写法
MODEL (name datalake.landing.customers,physical_properties (location = @resolve_template('s3://warehouse-data/@{catalog_name}/prod/@{schema_name}/@{table_name}'))
)
渲染后的 SQL
-- 生成的表路径示例:
-- s3://warehouse-data/datalake/prod/sqlmesh__landing/landing__customers__2517971505

总结

SQLMesh 的内置宏极大提升了 SQL 查询的灵活性和可维护性:

  • @PIVOT 简化行列转换,适用于统计分析。
  • @DEDUPLICATE 高效去重,优化数据清洗流程。
  • @DATE_SPINE 自动生成日期序列,简化时间序列分析。
  • @RESOLVE_TEMPLATE 动态解析表路径,适配云存储场景。

掌握这些宏的使用方法,可以显著提升 SQL 开发效率,减少重复代码。建议在实际项目中结合业务需求灵活运用! 🚀

相关文章:

  • 全排列问题深度解析:为何无需index参数且循环从i=0开始?
  • [创业之路-369]:企业战略管理案例分析-9-战略制定-差距分析的案例之华为
  • C#入门系列【基础类型大冒险】从0到1,解锁编程世界的“元素周期表”
  • 阿尔泰科技助力电厂——520为爱发电!
  • MCP 协议传输机制大变身:抛弃 SSE,投入 Streamable HTTP 的怀抱
  • C语言:基础篇之常见概念
  • Redis从入门到实战 - 高级篇(中)
  • 20250520期:科研小白如何投稿一篇SCI?
  • 银行反欺诈理论、方法与实践总结(下):解决方案
  • 【DeepSeek论文解读】DeepSeek LLM和DeepSeek Moe解读
  • 基于 STM32 单片机的实验室多参数安全监测系统设计与实现
  • C++从入门到实战(十六)String(中)String的常用接口(构造接口,析构接口,迭代器,遍历修改,容量管理与数据访问)
  • 产品生命周期不同阶段的营销策略
  • 2025年燃气从业人员精选备考真题及答案
  • leetcode hot100:四、解题思路大全:滑动窗口(无重复字符的最长子串、找到字符串中所有字母异位词)、子串(和为k的子数组、)
  • 在 Excel 中使用 C# .NET 用户定义函数 操作步骤
  • linux内核编译学习笔记
  • 一文深度解析:Pump 与 PumpSwap 的协议机制与技术差异
  • 微小店推客系统开发:构建全民营销矩阵,解锁流量增长密码
  • 硬件工程师笔记——三极管Multisim电路仿真实验汇总
  • 每一笔都是对的!再读周碧初画作有感
  • 大语言模型在线辩论说服力比人类辩手高出64%
  • 去年中企海外新增风电装机量5.4GW,亚太区域占比过半
  • 戛纳参赛片《爱丁顿》评论两极,导演:在这个世道不奇怪
  • 外交部:巴基斯坦副总理兼外长达尔5月19日至21日访华
  • 武汉警方通报一起故意伤害案件:1人死亡,嫌疑人已被抓获