数据库管理-第332期 大数据已死,那什么当立?(20250602)
数据库管理332期 2025-06-02
- 数据库管理-第332期 大数据已死,那什么当立?(20250602)
- 1 概念还是技术
- 2 必然的大数据量
- 3 离线到实时
- 4 未来
- 总结
数据库管理-第332期 大数据已死,那什么当立?(20250602)
作者:胖头鱼的鱼缸(尹海文)
Oracle ACE Pro: Database
PostgreSQL ACE Partner10年数据库行业经验
拥有OCM 11g/12c/19c、MySQL 8.0 OCP、Exadata、CDP等认证
墨天轮MVP,ITPUB认证专家
圈内拥有“总监”称号,非著名社恐(社交恐怖分子)公众号:胖头鱼的鱼缸
CSDN:胖头鱼的鱼缸(尹海文)
墨天轮:胖头鱼的鱼缸
ITPUB:yhw1809。
除授权转载并标明出处外,均为“非法”抄袭
前两天在数据库圈历史学家司马辽太杰的朋友圈看到一段话“每隔一段时间,就有人传大数据已死的话题…”,确实好像每隔一段时间都会有人提出这个论点,更有甚者,会有人提出没有数据库该承载那么大的数据,今天我也提出下我的一些观点。
1 概念还是技术
首先,大数据到底是一种概念还是技术,也许在曾几何时,大数据就等同于Hadoop,在那段实践中大数据被看做一种技术,利用Hadoop的大数据量存放与处理能力来解决大规模数据的复杂分析需求。
但是随着软件的发展,比如搜索与数据分析引擎、列式存储数据库、分布式等技术的扩充;加上硬件的发展,计算(CPU)、缓存(内存)、IO(SSD)的巨大进步。使得实现大数据量的分析计算可以不再需要复杂臃肿的Hadoop了。
回到本小节题目,我认为大数据,在当下的大数据是一种概念,或者说是一种场景需求,简单来说就是从海量数据中获取需要的分析结果。
2 必然的大数据量
为什么有人不相信可能出现那么大的数据量,无外乎有以下一些原因:
- 所在的公司/企业业务量就那么大,想象不出什么样的业务会带来那么大的数据量
- 认为历史数据没有价值,仅保留很短时间内的活动数据,整体数据就很小了
- 业务拆分的比较细,每部分业务的数据量都不大,自己也只负责这部分数据
- 自认为自己研发能力出众,不会产生那么多冗余数据
- …
我在类互联网公司干过,也在传统行业摸爬滚打过,我来说说对上面这些原因自己的见解:
- 确实有业务,光是基础数据的数据量就能超出你的想象,而且这些数据还有不少是需要频繁变更的,更别说基于这些基础数据构建起来的整体业务的数据量
- 历史数据是宝贝,先不说可以用于审计溯源,还可以通过分析得出一些很有价值的东西,比如趋势预测、反诈、构建知识库、模型训练等等
- 无论业务拆的多细,我们最终的分析需求是需要把所有数据串联起来,这样整体的数据量就不会小
- 菜是原罪,而且世界是个巨大的草台班子,不是每个人都那么的优秀
- …
3 离线到实时
这里还是举个例子,以前家里宽带不能上网了,打运营商电话报障投诉,很大概率是不能立马给你说出故障原因并给出解决时限的,有些故障处理个十天半个月也不是问题,甚至有时候运营商的客服和故障处理人员态度还不大好。但现在不一样,很多时候在你电话报障的时候,就能直接给你说出故障原因,同时网络维护人员会很快给你打电话并同步故障处理进度,态度非常好。为什么会有这种变化,其主要原因一是上级通信主管单位的要求,运营商必须保证网络连通性;二是现在投诉可以直接电话到工信部,这样的投诉再下放到本地,带来的影响可会被放大很多。
运营商的数据就是上一节说到的基础数据都是海量且实时变化的,排障就是在这些海量基础数据之上结合其他相关大规模流转数据找到故障点并反馈一线快速处置,这就是一个典型的HTAP场景了。如果还是用以前相对臃肿的Hadoop来解决类似的问题,那么ETL的过程所耗费的时间往往就已经让故障工单超时了。
4 未来
其实大数据的近实时在线分析和离线分析两种场景并不是有你无他的,两种场景根据需求不同是同时存在的,只不过如前一节所说的一样,只不过很多原来没有时间要求的计算分析现在实时性要求越来越高了。依托软硬件的发展与合理的应用与数据层架构设计,可以非常便捷的实现HTAP的场景需求,另一方面我觉得以后离线大数据分析中ETL的部分完全可以交给AI来做,不仅性能更好,还能敏捷的变更需求,如果再将数据排布一并交给AI,那么离线大数据分析的性能会有一个质的提升。
总结
大数据是数据量越来越大,实时性要求越来越高环境下的一种概念或者场景需求。
老规矩,知道写了些啥。