paimon实战 -- 阿里基于StarRocks 与 Paimon 实现的实时分析黑科技
背景
在即时零售业务蓬勃发展的背景下,淘宝闪购项目正式启动,标志着外卖行业迎来新一轮激烈竞争。数据驱动决策已成为商业战场的核心竞争力,而传统离线架构的时效性短板正成为业务突破的关键瓶颈。此前,饿了么数据体系以T+1离线处理为主,实时数据因高昂的开发成本和计算资源,仅覆盖了大盘核心指标。闪购项目期间多端多触点流量及亿级营销投入对实时决策和实时调控提出更高要求。海量数据需在分钟级完成采集、清洗、分析与可视化。
为了应对这些挑战,饿了么数据团队基于过去一年多在湖仓领域的探索和技术沉淀,通过 StarRocks 与 Paimon 的实时湖仓架构,支撑了海量数据实时分析能力。并进一步通过以下技术手段显著提升了实时分析性能:
-
物化视图优化:StarRocks 的异步物化视图功能被用于预计算高频查询场景,通过将复杂计算结果持久化存储,将原本需要扫描千亿级数据的查询耗时从分钟级压缩至秒级
-
RoaringBitmap 去重:针对超大数据量多维度实时交叉去重指标计算场景,团队引入RoaringBitmap 技术,结合Paimon 的流读流写能力和 StarRocks 丰富的 Bitmap 函数支持,在保障查询性能的同时,业务可以查询实时数据进行任意维度的灵活分析
-
大查询管理:利用社区提供的工具及 StarRocks 自身的组件实现集群监控报警和诊断分析的可视化管理,并使用 SQL 优化、资源隔离等方式来保障集群的持续稳定性。
该架构升级最终实现三大核心价值:存储成本大幅降低,实时分析链路端到端延迟显著下降