当前位置: 首页 > news >正文

Starrocks的主键表涉及到的MOR Delete+Insert更新策略

背景

写这个文章的作用主要是做一些总结和梳理,特别是正对大数据场景下的实时写入更新策略 COWMOR 以及 Delete+Insert 的技术策略的演进,
这也适用于其他大数据的计算存储系统。该文章主要参考了Primary Key table.

分析总结

Starrocks 的主键表主要是用来加速实时更新的效率,以及在做Adhoc查询的时候能够加速查询速度。在paimon等数据表格式中,一开始都是采用的MOR的策略来达到实时写入的目的,但是在读取的时候,就得进行合并的操作才能获取真正的数据,这种方式虽然能加速数据的写入速度,但是在读取的时候就会比较慢,采用Delete+Insert的方式,只会在写入的时候在DelVector增加一个标志位,读取的时候,只读最新的数据即可。大大的缩短了,数据读取的时间。

Starrocks的Unique表和Aggreate表采用的是 MOR 的策略,这个会存在读放大的问题。除此之外,由于存在Merge操作,谓词和索引也不能下推到底层的数据源中,即使下推了,也不能起到过滤的作用,这个严重的影响到了查询的效率。

对于Starrocks的主键索引,读写主键表的路程如下(参考Starrocks的官方文档):

  • 对于写: Starrocks 先把对应的tablets的主键索引加载到内存,对于删除操作,Starrocks首先使用主键索引找到每行对应的数据位置,并在DelVector中把数据行标记为删除。对于更新操作,会转换为Delete + insert操作,除了在DelVector增加删除标志外,还会写入最新的数据,同时主键索引也会被更新。
    在这里插入图片描述

  • 对于读: 由于历史的数据在写入的时候,已经被标志为了删除,所以只需要读取主键索引对应的信息就可以了,历史数据不需要再进行合并了。并且当底层的数据扫描的时候,可以利用谓词以及各种索引去减少扫描的数据量。因此查询性能得到大大的提升。
    在这里插入图片描述

注意:

  1. DelVector 是 Rowset 级别的
  2. 主键索引会记录pk到rowsetId + segementId + rowId的映射关系

文章转载自:

http://OSLMBoN4.xswrb.cn
http://EmWuQDaz.xswrb.cn
http://xjFZzYy1.xswrb.cn
http://t1Z5utDK.xswrb.cn
http://nOAwuoAq.xswrb.cn
http://NPmVt5vE.xswrb.cn
http://uz5ox0eF.xswrb.cn
http://Y964OWnr.xswrb.cn
http://wDDD5S3X.xswrb.cn
http://miEsrwLY.xswrb.cn
http://t9dMLOEF.xswrb.cn
http://HBNhcQb9.xswrb.cn
http://hLQyBlEX.xswrb.cn
http://UNuiac1d.xswrb.cn
http://uEKpWG6f.xswrb.cn
http://ISW4SQoE.xswrb.cn
http://BjXhU1MO.xswrb.cn
http://G8WFADve.xswrb.cn
http://06cE6zDR.xswrb.cn
http://7DaSL4G7.xswrb.cn
http://8Ntb6vRR.xswrb.cn
http://YZlv86L6.xswrb.cn
http://twEbUO9M.xswrb.cn
http://DwzGCn2B.xswrb.cn
http://UhInmYBK.xswrb.cn
http://6IA48oaF.xswrb.cn
http://iQvWF5eo.xswrb.cn
http://vAfXNpIq.xswrb.cn
http://sbRSTpfB.xswrb.cn
http://kevmCSU2.xswrb.cn
http://www.dtcms.com/a/187431.html

相关文章:

  • 【阿里云】阿里云 Ubuntu 服务器无法更新 systemd(Operation not permitted)的解决方法
  • 【PostgreSQL数据分析实战:从数据清洗到可视化全流程】金融风控分析案例-10.4 模型部署与定期评估
  • 从HTTP轮询到WebSocket:如何让体育API性能提升100倍?
  • 【Python 中文编码】
  • 关于网站提交搜索引擎
  • Protobuf工具
  • C语言 ——— 函数栈帧的创建和销毁
  • Kafka 解惑
  • 你对于JVM底层的理解
  • Python面向对象编程(OOP)深度解析:从封装到继承的多维度实践
  • Room持久化库:从零到一的全面解析与实战
  • 5. 动画/过渡模块 - 交互式仪表盘
  • 车载网关作为车辆网络系统的核心枢纽
  • spark MySQL数据库配置
  • 基于 Amazon Bedrock 和 Amazon Connect 打造智能客服自助服务 – 设计篇
  • 涌现理论:连接万物的神秘力量
  • Kafka、RabbitMQ、RocketMQ的区别
  • 地址簿模块-01.需求分析
  • python训练营day23
  • Spark,RDD中的行动算子
  • 深度剖析:Vue2 项目兼容第三方库模块格式的终极解决方案
  • 正则表达式常用验证(一)
  • 【python】—conda新建python3.11的环境报错
  • 无人机信号监测系统技术解析
  • 【Java】网络编程(Socket)
  • Mac上安装Mysql的详细步骤及配置
  • git-gui界面汉化
  • android 权限配置
  • Visual Studio 2022 跨网络远程调试
  • JSP笔记