当前位置: 首页 > news >正文

开源列式分布式数据库clickhouse

这里写自定义目录标题

  • 开源列式OLAP数据库clickhouse
    • clickhouse
      • 使用 ClickHouse 的场景
    • 如何理解行式存储和列式存储
    • clickhouse-go

开源列式OLAP数据库clickhouse

  • OLAP (分析型):专为快速扫描、聚合、分析海量数据设计。
  • OLTP (事务型):专为处理大量短事务(插入、更新、删除、点查)设计。

clickhouse

官网:https://clickhouse.com/
ClickHouse 是一个开源列式数据库管理系统,专为在线分析处理(OLAP)而设计。它能够快速执行高并发、高效的数据查询,适合用于处理大量数据。

ClickHouse 是由俄罗斯Yandex公司开源的,他是俄罗斯的一家互联网巨头公司,虽然在国际上没什么名气,但在俄罗斯,他就是老大,是俄罗斯排名第一的搜索引擎公司。是和谷歌、百度一样的存在。ClickHouse 诞生于 2016 年,就是来自于 Yandex 公司。

主要用于在线分析处理 (OLAP) 业务。它采用列式存储结构,可使用 SQL 语句实时生成数据分析报告,另外它还支持索引,分布式查询以及近似计算等特性,凭借其优异的表现,ClickHouse 在各大互联网公司均有广泛地应用。

它专为需要超快查询速度和海量数据(PB级)扫描的实时分析场景而设计,尤其擅长大规模数据集的聚合查询。

ClickHouse 的主要特性包括:

  • 高性能:支持实时数据查询和分析,通过列式存储结构优化查询速度。查询速度快,支持并发分析场景。插入写入高吞吐,但更新和删除操作代价高
    ClickHouse 写入吞吐量大
    单服务器日志写入量在 50MB 到 200MB/s,每秒写入超过 60w 记录数,是 Elasticsearch 的 5 倍以上。
  • 高度可扩展:能处理 PB 级的数据,适合大规模应用。
  • SQL 支持:兼容 SQL 查询语言,方便以 SQL 为基础的数据操作。
  • 容错性:内置的数据冗余和快照支持,可保证数据的安全性。

不适合的场景包括:

  • 核心业务系统主库
  • 高频 update/delete 的场景
  • 强一致性需求业务

使用 ClickHouse 的场景

  1. 实时数据分析:可以用于流量分析、用户行为跟踪等需要实时响应的场景。
  2. 大数据仓库:处理海量数据,比如日志数据、传感器数据等,进行长期存储和分析。
  3. 业务智能:通过 OLAP 查询,为企业提供决策支持的数据分析和报表。
  4. 数据集成:与 ETL(抽取、转换、加载)流程结合,作为分析的数据存储后端。

如何理解行式存储和列式存储

数据库存储方式主要分为两种:行式存储(Row-based Storage)和列式存储(Column-based Storage)。
行式存储 (Row-based Storage)
存储方式:
数据按行存储,一行的所有字段连续存放在一起
例如:
[ID1, Name1, Age1, City1]
[ID2, Name2, Age2, City2]
[ID3, Name3, Age3, City3]

传统的 MySQL 数据库的每一行数据都是物理的存储在一起的。如果我要取 id 等于 10000 这一条数据的 name 列,那我就必须要把这一行数据读取出来,然后取 name 列。
在众多的数据中,我只取一列,但我需要把每条数据都读取出来。

列式存储 (Column-based Storage)
存储方式:
数据按列存储,同一列的所有值连续存放
例如:
[ID1, ID2, ID3]
[Name1, Name2, Name3]
[Age1, Age2, Age3]
[City1, City2, City3]

由于 name 列的数据都存储在一起,因此效率大大的超过了传统的数据库。

clickhouse-go

github:https://github.com/ClickHouse/clickhouse-go

clickhouse-go 是 Go 语言的 ClickHouse 驱动程序,允许开发者使用 Go 进行数据操作。
clickhouse-go 为 Go 开发者提供了便捷的方式来与 ClickHouse 进行交互。

http://www.dtcms.com/a/311452.html

相关文章:

  • SpringBoot 启动富文本文字更改
  • .NET 中,Process.Responding 属性用于检查进程的用户界面是否正在响应
  • Linux性能监控与调优全攻略
  • SpringCloud微服务
  • 1分钟临时共享空间在线小工具实现
  • 存储成本深度优化:冷热分层与生命周期管理——从视频平台年省200万实践解析智能存储架构
  • Qt 实战教程:使用 QNetworkAccessManager 发送 HTTP POST
  • SM2国密算法的大数运算原理详解
  • (吃饭)质数时间
  • 防御保护综合案例
  • 二分查找:高效搜索有序数组
  • 【论文笔记】Multi-Behavior Graph Neural Networks for Recommender System
  • 深度学习loss总结(二)
  • [硬件电路-116]:模拟电路 - 信号处理电路 - 程控增益放大器
  • Batch Normalization(BN):深度学习中的“训练加速器”与实践指南
  • LLM Prompt与开源模型资源(3)如何写一个好的 Prompt
  • 【转】大模型安全治理的现状与展望
  • 【REACT18.x】使用vite创建的项目无法启动,报错TypeError: crypto.hash is not a function解决方法
  • SpringCloud实战:机器人对战系统架构
  • 【LeetCode 热题 100】739. 每日温度——(解法一)单调栈+从右到左
  • STL 算法与迭代器终极指南:从基础到高级应用
  • 函数指针——回调函数
  • 文件同步神器-rsync命令讲解
  • ESP32- 项目应用1 智能手表之功能补全 #5
  • UDP通信中BIND端口号的作用解析,LOCALPORT的关系解析
  • 代码随想录刷题Day23
  • verilog的学习
  • 高效游戏状态管理:使用双模式位运算与数学运算
  • 从基础功能到自主决策, Agent 开发进阶路怎么走?
  • 技巧|SwanLab记录ROC曲线攻略