当前位置: 首页 > news >正文

了解篇 | StarRocks 是个什么数据库?

今天简要介绍一下StarRocks 这个强大的数据库。

注意:本文章内容仅供个人学习,不包含任何推荐性质。

图片

StarRocks(原名 Doris)是一个高性能、全场景的MPP(大规模并行处理)分析型数据库。它专为极速的多维联机分析处理(OLAP) 而设计,能够对海量数据进行实时和批量的多维分析、即席查询和高并发报表。

官方网站获取文档和下载:https://www.starrocks.io

一、 特性与优势

1. 性能

  • 列式存储引擎:数据按列存储,在查询时只需读取相关列,极大减少了I/O消耗。

  • 向量化执行引擎:利用CPU的SIMD指令,一次处理一批数据(一个向量),而不是一行数据,显著提高了CPU利用率和查询效率。

  • MPP架构: 查询任务被并行分发到集群中的所有节点,各节点独立处理自己负责的数据,最后汇总结果,实现了线性扩展。

  • CBO(基于成本的优化器): 拥有非常智能的优化器,能够为复杂查询选择最优的执行计划。

2. 实时分析

支持实时数据导入,数据写入后立即可查。它支持从多种数据源(如Kafka、Flink、Spark等)通过物化视图(Materialized View) 和 Bitmap 索引 等技术进行预聚合和加速,使得即使在大数据量下,聚合查询也能在亚秒级返回。

3. 高并发

架构设计上避免了外部系统依赖(如ZooKeeper),并进行了大量优化,能够支持数千甚至上万的高并发查询,非常适合作为企业统一的分析门户或数据中台的查询引擎。

4.全面兼容 MySQL 协议

支持标准SQL-92,并且兼容MySQL网络协议。这意味着你可以使用任何常见的MySQL客户端、BI工具(如Tableau、Superset、FineBI)或应用程序直接连接StarRocks,学习成本和迁移成本极低。

5. 物化视图

用户可以在基表上创建多个物化视图。StarRocks的优化器能够自动、智能地选择最优的物化视图来响应查询,无需在查询语句中显式指定,对应用透明,极大地加速了聚合查询。

6. 易于运维

提供简洁的前端(FE)和后台(BE)架构,部署和运维相对简单。

支持在线弹性扩缩容,可通过简单的SQL命令添加或删除节点,集群会自动进行数据重分布。

二、 技术架构

StarRocks 采用了一个非常简洁的架构,主要由两个角色组成:

1. Frontend (FE)

职责:负责元数据管理、客户端连接管理、查询规划与调度。

组件:

nLeader FE: 主节点,负责元数据的写入和日志。

nFollower FE: 从节点,参与选举,提供元数据读取服务。

nObserver FE: 观察者节点,仅扩展元数据的读取能力,不参与选举。

通常通过BDB JE进行Leader和Follower之间的元数据同步。

2. Backend (BE)

职责:负责数据存储和查询执行。每个BE节点存储一部分数据(Tablet),并执行FE下发的查询任务。

数据分片:表的数据被水平分区为多个Tablet,每个Tablet有多个副本(通常为3),分布在不同BE上,保证了高可用和高性能。

三、适用场景:

  • 实时数据看板与BI报表: 为业务人员提供高并发的自助分析平台。

  • 用户行为分析:支持对海量用户数据进行多维度、即席的探查与分析。

  • 日志分析:替代ELK等方案,进行结构化的日志存储与查询。

  • 统一查询入口(数据网关):通过External Table功能,可以直接查询Hive、Iceberg、Hudi、Elasticsearch等外部数据源,无需数据导入,实现“湖仓一体”分析。

  • 高并发精准查询:例如电商的订单查询、用户画像的标签查询等。

四、与其他OLAP数据库的对比

特性

StarRocks

ClickHouse

Apache Druid

Snowflake

架构

MPP

无共享(Share-Nothing)

分布式、列式

云原生、存储计算分离

并发能力

极高

一般(单表)

极高

实时摄入

支持

支持

非常擅长

支持(Streaming)

查询延迟

亚秒到秒级

亚秒级(简单查询)

秒级

秒级

SQL兼容性

高(兼容MySQL)

中等(方言)

中等(方言)

极高(标准SQL)

易用性

简单

较复杂

复杂

极简(全托管)

运维成本

无(SaaS)

成本

开源/低成本

开源/低成本

开源/低成本

商业/按量付费

文章小结

StarRocks 是一个在性能、并发、实时性和易用性之间取得出色平衡的MPP数据库,其极简架构、向量化引擎和智能物化视图,成为了大数据实时分析领域的一个OLAP解决方案。;适合需要高并发、低延迟查询的企业级分析场景,支持自建数据中心和云上部署。

文章至此。


文章转载自:

http://o7cOC5T5.xgdyz.cn
http://4CBkiqQ8.xgdyz.cn
http://UgAm2U1P.xgdyz.cn
http://UfYgylF8.xgdyz.cn
http://owfE56Pj.xgdyz.cn
http://jD7HHZts.xgdyz.cn
http://RrzaO69Y.xgdyz.cn
http://sA22ELeO.xgdyz.cn
http://dIqo7Vfn.xgdyz.cn
http://ZDojhanG.xgdyz.cn
http://zjima75X.xgdyz.cn
http://yTd5NaOD.xgdyz.cn
http://KddfIW3c.xgdyz.cn
http://cBnAlcKZ.xgdyz.cn
http://5zU0rnMc.xgdyz.cn
http://xY37aTXr.xgdyz.cn
http://2mWwz6Vy.xgdyz.cn
http://DwDHpbAm.xgdyz.cn
http://FODtiog0.xgdyz.cn
http://Bujc9y3a.xgdyz.cn
http://7NfbKU0Y.xgdyz.cn
http://kcms9uYQ.xgdyz.cn
http://t2SeRl3r.xgdyz.cn
http://0om7FnQM.xgdyz.cn
http://vt1bdZY9.xgdyz.cn
http://gR8pqdPF.xgdyz.cn
http://GPAAcpWa.xgdyz.cn
http://rFB5DYQR.xgdyz.cn
http://a5rSkgi0.xgdyz.cn
http://baVYUjyr.xgdyz.cn
http://www.dtcms.com/a/385296.html

相关文章:

  • 风险控制规则引擎:从敏捷开发工具到管理逻辑的承载者
  • 基于Matlab深度学习的植物叶片智能识别系统及其应用
  • AI编程从0-1开发一个小程序
  • Android原生的TextToSpeech,文字合成语音并播放
  • 【03】AI辅助编程完整的安卓二次商业实战-本地构建运行并且调试-二次开发改注册登陆按钮颜色以及整体资源结构熟悉-优雅草伊凡
  • 高德api使用
  • 工程造价指数指标分析:从数据采集到决策支撑的工程经济实践
  • 中控平台数据监控大屏
  • Vue 与 React 的区别?
  • 元图CAD:智能工程图纸解决方案的商业模型创新
  • MySQL 全量备份迁移步骤指南
  • 有关gitlab14.x版本在内网环境下无法添加webhooks的解决方法
  • O3.4 opencv摄像头跟踪
  • 数智管理学(五十二)
  • 121、【OS】【Nuttx】【周边】效果呈现方案解析:find 命令格式(上)
  • Python 3入门指南
  • I.MX6UL:EPIT
  • 企业数字化转型的 4A 架构指南:从概念解读到 TOGAF 阶段对应
  • Linux基础之部署mysql数据库
  • 【文献分享】空间互近邻关系在空间转录组学数据中的应用
  • 高精度、高带宽的磁角度传感器——MA600A
  • HarmonyOS服务卡片开发:动态卡片与数据绑定实战指南
  • HarmonyOS迷宫游戏鸿蒙应用开发实战:从零构建随机迷宫游戏(初版)
  • 拥抱依赖注入的优雅与灵活:深入解析 Spring ObjectProvider
  • HarmonyOS数据持久化:Preferences轻量级存储实战
  • 机器学习势函数(MLPF)入门:用DeePMD-kit加速亿级原子模拟
  • X电容与Y电容的区别:电路安全设计的黄金组合
  • MySQL学习笔记02-表结构创建 数据类型
  • etcd压测造成数据目录过大恢复
  • 信息系统运维管理