当前位置：首页 > news >正文

告别 Hadoop，拥抱 StarRocks！政采云数据平台升级之路

news 2025/9/4 6:40:22

作者：李进勇政采云研发中心数据平台负责人

数据驱动时代的痛

在当下数字化转型的浪潮中，数据早已从辅助资源跃升为核心生产资料和决策基础。政府提升治理效能，企业优化运营、创新服务，都深度依赖对海量数据的实时洞察与高效处理。

政采云平台作为政府采购数字化的创新典范，集监管、交易、服务于一体，经过近九年的发展，已成为行业内服务范围最广、用户数量最多、交易最活跃、监管产品最丰富的跨区域、跨层级、跨领域的一体化采购云服务平台，日均处理海量高并发数据。Hadoop 作为早期构建大规模数据平台的基石，为政采云平台打开了低成本处理海量非结构化、半结构化数据的可能。然而，伴随业务激增、复杂分析需求及严苛的时效要求，曾经“功臣”的局限性和沉重包袱日益凸显，逐渐成为数据价值释放的“枷锁”。

1. 架构复杂臃肿，运维如履薄冰

使用Hadoop平台需要部署和管理多个深度依赖的组件（HDFS、YARN、Hive、Spark等），这些组件各自独立，版本兼容性管理复杂，配置调优相互影响，精密且牵一发而动全身，问题排查就像走迷宫，定位根因异常困难，给团队带来了沉重负担。

2. 高昂的总体拥有成本（TCO）

为了支撑架构稳定运行，硬件需要配置较多冗余资源，平台运维工程师深陷于组件部署、升级、配置、监控、故障处理等繁琐事务中。政采云数据平台的私有化部署场景，更使得交付和维护成本倍增。

3. 难以逾越的实时性鸿沟

Hadoop 根基在于批处理，即使经 Spark 优化，面对秒级甚至亚秒级响应的分析场景时，Hadoop仍显得力不从心，难以满足业务部门日益提高的实时数据要求。

4. 强耦合依赖带来弹性不足与升级困境

组件间紧密耦合导致扩缩容成本高昂，新节点添加需冗长的数据重分布过程，缩容涉及复杂的数据迁移，严重限制了技术栈的灵活选择与独立升级。

5. 国产化适配挑战

当前，信创是国家的重要战略方向。在政采云面向政企客户的场景中，信创要求在不断的提高，Hadoop面临双重困境：一方面，CDH 停止开源支持存在供应风险。

另一方面，现有开源版本的组件对国产硬件和操作系统的兼容性和性能优化严重不足。

在私有化部署场景下，这直接导致项目落地风险陡增，甚至导致解决方案无法实施。

破局时刻：寻求现代化的数据平台

面对这些多维度挑战，政采云数据团队认识到：对Hadoop平台的局部优化已无法解决根本问题，必须寻求架构层面的彻底革新，重新定义数据平台战略。

政采云数据平台团队的核心需求非常明确：

技术路线可控：确保技术适配国产硬件和操作系统。
高性能与实时性： 能够从容应对海量数据进行分析与查询需求。
架构极简，运维轻量： 大幅降低运维复杂度，解放运维生产力。
显著优化成本： 降低软硬件采购和维护开销，提高资源利用率。
弹性伸缩灵活： 资源能够按需、快速、平滑地扩展和收缩。

通过广泛调研，StarRocks 凭借其独特的架构设计理念和卓越性能引起了政采云数据团队的高度关注。经过一系列严谨测试、场景验证，政采云做出了关键决策：以 StarRocks 为核心引擎，结合其原生存算分离架构，对政采云数据平台架构进行全面的重构升级！

StarRocks 的革新架构：简约、高效、解耦

StarRocks 追求“极致性能”与“极简架构”，其核心优势在于彻底摒弃了 Hadoop 的堆叠模式，实现了真正的“去 Hadoop 化”和“一体化 MPP”架构。镜舟科技作为其商业化公司也提供全面的技术支持，确保其在国产硬件与操作系统上的深度适配与优化。

1. 架构极简：颠覆性的组件精简

核心组件仅两个：Frontend (FE) 和 Compute Node (CN)。

FE（协调节点）：负责元数据管理、查询规划优化、客户端请求接入和集群管理。FE 的多副本机制通过高一致性协议（Raft）保障元数据的绝对安全和服务的持续可用。
CN（数据节点/计算节点）： 主要负责计算，不存储持久化数据，为存算分离提供基础。

政采云移除了HDFS、YARN、Hive及部分计算引擎，将数据存储、元数据管理、SQL 计算、复杂查询优化统一收敛到 StarRocks 内。

部署管理清晰简单：管理好一组 FE，按需增加或减少 CN 节点，相比 Hadoop 时期，整个集群启动和运维复杂度呈指数级下降。

2. 高度一体化：数据全栈能力的集中释放

统一引擎：StarRocks 集 MPP 向量化执行引擎、CBO优化器、列式存储、智能物化视图等技术于一身，用户不需要为不同场景准备不同引擎。

全场景覆盖：它不仅支持即席查询和交互式分析，得益于优秀的Pipeline处理和对部分更新、主键模型的支持，还具备强大的高并发实时分析。

原生湖分析：通过简单的 Catalog 配置，StarRocks 可以直接分析存放在外部对象存储或原 HDFS 上的湖上数据，无需迁移导入，极大简化了混合架构下的分析流程。

统一接口：所有核心场景（ETL/批处理、实时分析、多维分析、交互式查询）均只需使用一套标准SQL接口，打破了不同引擎间的壁垒，极大简化了数据应用开发和数据链路的复杂性。

3. 拥抱存算分离：成本效益与弹性

统一存储层（对象存储）

政采云将需要长期稳定存储的核心数据，统一放置在高可靠、低成本的对象存储上，对象存储本身提供高可靠、无限扩展、按量付费的特性。

高效计算层（StarRocks）

FE 节点统一管理元数据，CN 节点利用本地介质作为热数据缓存层（Cache）并承担计算任务。

基于以上架构组合，进一步实现弹性伸缩：

存算解耦：数据增长只需扩展存储空间。计算资源不足时，几分钟内添加节点自动纳入资源池；资源过剩可安全移除节点或降配，无需耗时的数据重分布。
成本精益控制：计算资源按需分配。在业务高峰快速扩展计算资源应对压力；在低谷期收缩资源降低成本，避免长期闲置资源。
分层存储：“冷数据”自动沉降到成本更低的对象存储，仅保留少量热点数据在高速缓存层。避免了过去 HDFS 在存储成本上的硬伤。

高效故障恢复

如遇 CN 节点宕机，计算任务会自动调度到其他节点，新增的 CN 节点自动重建本地缓存，FE 故障则自动由 Raft 副本接管，显著增强了系统韧性。

攻坚克难：迁移挑战与创新突破

经过周密的技术验证与迁移规划，政采云数据平台从 Hadoop 迁移至 StarRocks 的过程中，主要面临以下挑战：

1. 内部大数据应用的适配

包括作业开发平台、数据标签系统、数据指标系统、数据质量系统、数据地图、数据权限系统、数据血缘，以及底层自研组件 HTools 和调度系统等。

2. SQL 迁移与数据一致性验证

数仓作业需要从 Spark SQL 转换至 StarRocks SQL，并且需确保 Hadoop 数仓和 StarRocks 数仓的计算结果一致。

业务系统适配改造主要面临工作量层面的挑战，相对可控；而SQL血缘收集、数仓作业迁移和数据核对等环节则涉及技术可行性问题，难度显著提升，但团队仍逐一解决。

SQL 血缘收集：相较于Hadoop数仓，StarRocks缺乏表和字段的血缘关系解决方案。由于数据血缘在数仓开发过程中是必不可少的，政采云选择对 StarRocks 进行二开，在 SQL 生成语法树之后的 Analyze 阶段解析出血缘信息，并写入 StarRocks 内部表。

数仓作业迁移：由于 Spark SQL 与 StarRocks SQL 之间存在一些语法差异，人工逐一迁移和改造不切实际。因此，团队开发了一种自动转换语法的迁移功能，约 90%的差异可通过自动转换来处理，其余个性化差异则通过人工进行判断和改造。这种方式大幅缩短迁移时间，还节省大量的人力资源。

数据核对：确保迁移前后批处理结果一致是重大挑战。面对数千张仓库表，StarRocks可能在不报错的情况下处理某些细微语法差异，导致部分列数据不一致。政采云开发了专门的数据核对工具，通过行数比对、关键枚举值验证和数据抽样MD5值等多维度规则，全面保障数据迁移的准确性。

成果丰硕：收获多维数据价值

经过诸多挑战，成功迁移至 StarRocks 数仓后，带来的收益是多维度且显著的：

1. 可靠性、稳定性迈上全新台阶

服务自愈能力强： StarRocks 的进程健康检查和自动恢复机制显著减少了人工介入的频率，服务异常能够被系统更快感知并尝试自恢复。
存储无虞： 核心数据存储在对象存储中，对象存储自身的高可靠性使得政采云对数据安全性有了更强的底气。
效率提升：在总体成本大幅下降的同时，绝大多数数据处理任务的产出时效性反而获得明显提升。

2. 运维复杂性断崖式下降

运维对象聚焦：监控指标集中、告警收敛。告别监控 HDFS、YARN、Spark、Hive 等多个割裂状态，转为集中管理少量frontend进程和众多backend/compute node进程。
变更敏捷高效：集群扩缩容从"灾难演练"变为几分钟内完成的日常操作，水平扩展后立即可服务业务，版本升级路径清晰可控。
团队价值回归：数据平台团队从繁琐的“救火”和基础设施维护中解放，转向平台优化、性能调优和业务赋能等更具战略价值的工作。

3. 成本效益显著优化

存储成本锐减：通过冷数据沉降至对象存储和灵活的分层管理，政采云平台的数据存储总成本较 HDFS 方案下降了超过 85%，充分发挥对象存储的海量低成本优势。

计算成本降低：存算分离架构实现计算资源按需动态伸缩，消除峰值预留造成的资源闲置，同时StarRocks在同等硬件条件下展现出更高的计算效率（吞吐量、QPS）。告别存储与计算紧耦合模式（如HDFS要求节点同时承担存储和计算功能），消除了不必要的资源开销。
总体 TCO 下降：综合人力运维、软硬件资源采购与维护等方面的节约，政采云整体IT相关成本降低超过30%。

4. 数据处理链路焕然一新：

统一 SQL 入口： ETL 清洗、数据导入调度、批处理报表生成、实时数据大盘查看、深度即席探索分析——所有操作在 BI 工具或客户端中通过标准 SQL 即可一站式完成，告别多平台跳转困扰。
告别“数据搬运工”：大幅减少跨存储系统(HDFS到其他DB)和不同格式间的数据流转与转换环节，提升数据时效性，增强链路一致性，简化数据治理落地。
价值释放加速：简化流程、一体化体验与强大处理能力协同作用，显著缩短从数据产生到分析利用的周期，数据驱动决策效率实现质的飞跃。