从传统Cube到现代化指标体系:物化视图驱动的指标平台升级之路
在高并发、高吞吐量的数据分析场景下,简单的事情往往变得不那么简单。一个业务逻辑简单的指标大盘,在日常情况下可能运行良好,但一旦面临大促或年终数据汇总等高峰期,就会出现卡顿甚至崩溃的情况。
为什么在这些特定场景下,原本稳定的系统会变得不稳定?这是因为传统的指标大盘解决方案在设计时,往往没有针对高并发、多维度分析和秒级刷新等特殊需求做好充分准备。
一、传统数据架构在指标分析场景下的困境
1. 指标平台的常见诉求
指标平台作为企业数据战略的核心组成部分,通常有以下几个关键诉求:
-
实时性:数据需要尽可能实时反映业务状态,从天级到小时级,甚至分钟级或秒级;
-
多维切片:支持按不同维度灵活切换分析视角,如时间、地域、用户群体等;
-
秒级刷新:在高并发访问下,仍能保持秒级的查询响应和页面刷新;
-
一致性:确保不同报表、不同平台看到的指标口径一致;
-
易用性:业务人员无需编写复杂 SQL,通过简单操作即可获取所需数据;
2. 传统数据库性能瓶颈凸显
传统的指标平台解决方案主要有以下几类:
关系型数据库+ OLAP 报表
-
优势:传统关系型数据库,如 MySQL、PostgreSQL、Oracle,在事务处理方面表现出色;
-
瓶颈:数据量大时查询性能急剧下降,难以支持复杂的多维分析;
传统 OLAP 引擎(如 Kylin)
-
优势:预计算 Cube 提供快速查询;
-
瓶颈:Cube 构建时间长、开销大,灵活性不足;
在指标平台等分析场景下,数据量往往达到亿级甚至更高。查询缓慢、响应延迟成为常态,严重影响了业务人员获取数据的时效性。
以某头部连锁餐饮企业为例,他们早期使用 Kylin 和 Impala 的组合方案,但面临以下问题:Kylin 中包含几百个 Cube,单个 Cube 数据量达到上亿级别,构建时间需要 7-9 个小时。
另外,在许多企业中,不同部门、不同业务系统对同一指标的定义、计算逻辑可能存在差异 ,涉及到指标开发工作时,通常需要为期数天的开发周期,无法支持快速迭代和自助式分析的需求。
这些局限性使得企业在追求极致分析性能、灵活性和成本效益之间难以找到平衡点。
二、镜舟科技携手 StarRocks 重塑企业数据分析能力
镜舟科技凭借其在数据基础设施领域的积累和对开源技术 StarRocks 的深刻理解,提出新的指标平台解决方案,能够帮助企业构建现代化、高性能、高可用的数据分析平台,解决查询慢、扩展性差、实时性不足以及指标口径不一等核心痛点。
1. StarRocks 在指标分析场景的优势
作为新一代的 OLAP 数据库,StarRocks 在支撑指标平台方面具有以下优势:
卓越的查询性能
-
高效的列式存储和向量化执行引擎
-
强大的单表、多表和外部表查询能力
-
支持复杂 SQL,包括各种聚合函数、窗口函数
灵活的物化视图:指标平台性能提升的新引擎
StarRocks 的物化视图技术特别适合视图建模方式,能够在保持灵活性的同时提供高性能,并且支持更广泛的查询场景,包括聚合、Join、Union 等操作。与传统的 Cube 相比,StarRocks 物化视图具有以下优势 :更灵活的查询支持、更低的维护成本、更快的构建速度、更好的增量更新能力。
-
支持多种聚合策略,可针对不同查询模式优化
-
以对常用的查询模式进行预计算,实现查询的透明加速
-
增量更新机制,确保数据实时性
物化视图不仅简化了数据建模,还能自动管理数据依赖和分区刷新,并支持基于外部 Catalog(如 Hive Catalog)创建,免去了复杂的数据导入过程,进一步实现湖仓一体架构。
2. 镜舟数据库(Mirrorship):企业级的增强与保障
在 StarRocks 开源版本的基础上,镜舟科技推出了企业级产品——镜舟数据库(Mirrorship),提供了更完善的企业级功能、金融级的安全保障和更便捷的运维管理能力。
完善的企业级功能: 包括多租户隔离的 Multi-warehouse、基于角色的访问控制(RBAC)、自动物化视图(AutoMV)等。企业可以利用 AutoMV 进行推荐,降低物化视图编写 SQL 的成本,并根据不同场景配置刷新策略,减少数据变更。
金融级安全保障: 提供了行列级别权限控制、主从容灾架构、数据加密等全面的安全功能,确保企业数据安全,符合并高于信息安全监管要求。
高可用性与易用性: 企业版提供的 Manager 管理控制台,可实现集群的可视化管理、监控诊断、SQL 开发、审计等功能。
三、应用实践:湖仓一体架构驱动腾讯视频指标中台的全面优化
腾讯视频作为中国领先的在线视频平台,每天处理海量用户行为数据,对指标的一致性、时效性、易用性和成本控制有着极致追求。
腾讯视频初期采用 Lambda 架构存在开发效率低、数据一致性难保障等问题。引入 StarRocks 后,构建了湖仓一体 2.0 架构,将 StarRocks 作为离线和准实时数据的统一查询引擎。准实时数据通过 Iceberg 直接导入 StarRocks 并同步回 Iceberg,离线 Iceberg 数据也向 StarRocks 同步,确保统一查询引擎。
该方案将准实时链路从“Iceberg -> Hive -> ClickHouse”简化为“Iceberg -> StarRocks”,并通过 StarRocks 向 Iceberg 同步实现数据降冷。
收益及成效
-
指标一致性和时效性显著提升;
-
统一 SQL 开发环境简化数据链路,提高开发效率;
-
通过在线方式优化预计算,节省计算和存储资源;
-
基于 StarRocks 引擎的自助分析工具使用户通过拖拽即可获取数据,大幅提升易用性。
StarRocks 在超大规模互联网场景下,通过构建先进的湖仓一体架构,全面提升指标中台能力,从而更好地服务于业务决策和产品运营。
四、结语
指标平台作为企业数据驱动决策的重要工具,对性能和可靠性有着极高的要求。镜舟科技致力于将 StarRocks 的极致性能转化为“更快的决策速度”,将开发效率的提升转化为“更敏捷的业务响应”,将数据的一致性转化为“更可靠的商业洞察”。
未来,镜舟科技将继续秉持“开源+商业化”模式,不断投入 StarRocks 社区建设,同时打磨镜舟数据库(Mirrorship)的企业级特性,深化在金融、互联网、制造、零售等关键行业的应用。