时序数据库高基数问题(一):当数据标签太多时会发生什么
时序数据库高基数问题通俗解读 — 当数据标签太多时会发生什么?
物联网时代,数据量爆炸式增长。当你的时序数据库开始变慢,甚至崩溃时,很可能遇到了"高基数问题"。这个看似技术性的名词,背后隐藏着什么样的技术陷阱?
1. 物联网时代的数据挑战
想象一下,你家里有智能温度计、湿度计、空气质量检测器等各种传感器,每隔几秒钟就会上报一次数据。现在把这个场景放大到整个城市:10万个物联网设备,每5秒发送一次数据,一年下来就是6307亿个数据点!
这些数据有个特点:按时间顺序产生、格式统一、只需要写入,不需要修改或删除。
为了处理这类数据,时序数据库应运而生。但随着应用场景越来越复杂,一个被称为"高基数问题"(也叫"时间线膨胀")的技术难题开始困扰着工程师们。
1.1 核心概念解释
1.1.1 什么是时序数据?
时序数据就像是给每个数据点贴上了"身份证",包含三个要素:
指标名称{标签1=值1,标签2=值2} 时间戳 数值
实际例子:
CPU使用率{服务器=server01,核心=cpu0,模式=空闲} @2024-01-15T10:30:00 70%
CPU使用率{服务器=server01,核心=cpu0,模式=系统} @2024-01-15T10:30:00 5%
CP