当前位置: 首页 > news >正文

探索表访问方法功能:顺序扫描分析

引言

在之前的文章中,我们讨论了 PostgreSQL 表访问方法 API 的基础知识以及堆元组(heap tuple)与元组表槽(Tuple Table Slot,简称 TTS)之间的区别。

本文将深入探讨 PostgreSQL 核心如何通过特定的 API 调用实现顺序扫描。

涉及的 API

为了实现顺序扫描,以下表访问方法 API 回调将会被调用:

  • relation_size()
  • slot_callbacks()
  • scan_begin()
  • scan_getnextslot()
  • scan_end()

默认情况下,PostgreSQL 使用堆访问方法(heap access method),它通过以下方式实现上述 API:

  • table_block_relation_size()
  • heapam_slot_callbacks()
  • heap_beginscan()
  • heap_getnextslot()
  • heap_endscan()

这些函数位于 src/backend/access/heap/heapam_handler.c 中。

基本工作流程

file

API 函数调用详解

table_block_relation_size(Relation rel, ForkNumber forkNumber)

这是查询规划阶段首先被调用的函数,旨在实际检查给定的 Relation rel 和 ForkNumber forkNumber 的大小。该函数将返回表的总块数(默认块大小为 8KB),以便调用方可以基于表的大小规划最佳查询策略。

什么是关系(relation)?

在大多数情况下,关系表示表(table)、索引(index)或视图(view)。在我们的案例中,它表示一个表,包含关于该表的重要信息,如数据库对象标识符(OID)、表空间、属性数量、其他标志等。

什么是分叉号(fork number)?

一个关系由多个分叉(fork)组成:

  • MAIN_FORKNUM (0:存储用户数据)
  • FSM_FORKNUM (1:存储空闲空间映射数据)
  • VISIBILITY_FORKNUM (2:存储可见性数据)
  • INIT_FORKNUM (3:用于重置 WAL 日志表)

heapam_slot_callbacks()

此函数被调用以返回适当的 TTS 操作,使执行器能够将堆元组转换为元组表槽(TTS)。对于堆访问方法,它使用考虑缓冲区管理的 TTS 回调:

const TupleTableSlotOps TTSOpsBufferHeapTuple = {.base_slot_size = sizeof(BufferHeapTupleTableSlot),.init = tts_buffer_heap_init,.release = tts_buffer_heap_release,.clear = tts_buffer_heap_clear,.getsomeattrs = tts_buffer_heap_getsomeattrs,.getsysattr = tts_buffer_heap_getsysattr,.materialize = tts_buffer_heap_materialize,.copyslot = tts_buffer_heap_copyslot,.get_heap_tuple = tts_buffer_heap_get_heap_tuple,/* 缓冲区堆元组表槽不能"拥有"最小元组 */.get_minimal_tuple = NULL,.copy_heap_tuple = tts_buffer_heap_copy_heap_tuple,.copy_minimal_tuple = tts_buffer_heap_copy_minimal_tuple
};

scan_begin() 和 scan_end()

在实际顺序扫描前后调用。scan_begin 负责初始化 HeapScanDesc 结构,该结构描述当前扫描状态,包括:当前块编号、待扫描块总数、扫描模式、快照等信息。其定义位于 src/include/backend/access/heapam.h

scan_end() 则负责清理在 scan_begin() 中分配的 HeapScanDesc。

scan_getnextslot()

顺序扫描的核心。此函数负责从存储引擎检索元组。在 PostgreSQL 中,它会向缓冲区管理器(buffer manager)模块请求元组,该模块既可以从内存缓冲区读取元组,也可以从物理存储读取。

这正是通过此 API 创建自定义数据库存储引擎的可能性所在——可以完全从内存读写元组,形成内存数据库。

如果仍有数据需要扫描,此函数需要返回 true 以便执行器再次调用。当所有数据扫描完毕时,返回 false 表示扫描结束。

file

总结

这是 PostgreSQL 中顺序扫描的基本工作流程,它利用了表访问方法的 API。

相关文章:

  • OpenManus中使用命令行运行py脚本报错
  • 【MyBatis-6】MyBatis动态SQL:灵活构建高效数据库查询的艺术
  • 辛格迪客户案例 | 天台山制药仓储管理系统(WMS)项目
  • 前端取经路——性能优化:唐僧的九道心经
  • WHAT - Node vs Python 执行速度
  • 数据结构5.0
  • 辉芒微离线烧录器“文件格式错误”问题解决
  • CTF-DAY11
  • yolov5如何训练使用MRI 脊椎分割数据集_ 脊椎分割项目解决方法如何 原图,标签分别2460张 实现可视化及评估
  • STM32-TIM定时中断(6)
  • element-ui时间线样式修改
  • Mamba 状态空间模型 笔记 llm框架 一维卷积
  • 云效 MCP Server:AI 驱动的研发协作新范式
  • cnas软件检测实验室质量管理体系文件思维导图,快速理清全部文件
  • 初等数论--欧拉函数及其性质
  • 【谭浩强】第七章第14题
  • 钉钉打卡教程
  • 深入解析网络联通性检测:ping 与 tracert 的原理、用法及实战应用
  • 位运算(二进制中1的个数)
  • 快手618购物节招商启动,国补可叠加跨店满减等大促补贴
  • 多地再发网约车从业及投资风险提示:避免盲目花费大笔资金“购车”入行
  • 道指跌逾100点,特斯拉涨近5%
  • 玉渊谭天丨一艘航母看中国稀土出口管制为何有效
  • 海关总署统计分析司司长:4月进出口增速较一季度加快4.3个百分点
  • 上海启动万兆光网试点建设,助力“模速空间”跑出发展加速度
  • 深入贯彻中央八项规定精神学习教育中央第六指导组指导督导中国工商银行见面会召开