从被动救火到主动预测!碧桂园服务以图谱技术重塑IT运维底座
在数字化快速发展的今天,企业的IT系统早已不是孤立的“设备堆砌”,而是像一座精密运转的数字都市:上千个微服务在云端交织,系统间的依赖关系错综复杂,一次看似简单的配置调整,都可能引发整座“城市”的连锁反应。过去,技术团队像消防员一样四处“救火”——故障发生后才手忙脚乱排查原因,每次系统变更都如临深渊;而如今,一场运维领域的革命正在发生:从“被动救火”到“主动预测”,企业正通过智能化的“数字孪生”技术,将IT系统从“黑箱”变为“透明体”,让风险可预见。
面对这些老大难问题,碧桂园服务率先推出了一套“IT资产动态关系图谱系统”,用一张实时更新、结构清晰和关系可视化的“运维地图”,改变了系统管理的方式。这张“图谱”不仅能帮助技术人员一眼看清系统之间的依赖关系,还能在变更之前直观展示影响范围,让排查故障从过去的“几小时”压缩到“几分钟”,大幅提升了效率和稳定性。
如今,这套系统已经覆盖了碧桂园服务10多万个设备节点和百万级的系统关系,实现了对企业常用资产的100%纳管,信息准确率达到98%以上。通过图谱分析,团队还能自动识别十多类安全隐患,比如暴露在公网的端口、重复配置的高风险规则等,为企业筑起了又一道智能化的防护墙。从“靠经验猜”到“看图就能懂”,从“故障发生后再抢修”到“风险提前就能预判”,碧桂园服务正在以图谱技术为支撑,推动IT运维迈入智能、可控和高效的新时代。
*以下内容来自碧桂园服务平台工程团队
图1 碧桂园服务IT资产管理图
随着数字化提升,碧桂园服务的企业 IT 资产体系日益复杂,体现在以下几个方面:
| 资源多样,系统庞杂
覆盖计算、存储、网络、安全和大数据等8大类,上百种云产品,数万资源单元分布在多云多地域中;
| 配置繁多,依赖强烈
每个资源背后绑定大量配置:网络、安全和运行参数等,结构深,变更难,排障难;
| 部署混合,环境交错
包含物理机、虚拟机、Kubernetes和Serverless 等形态,跨越公有云和私有云,测试与生产边界模糊;
| 标签混乱,关系隐匿
标签不统一,数据散落于 SVN、Excel和工单系统,资源关系难以追踪与可视化。
运维、变更、排障及安全的管理难题接踵而至,为有效应对,我们迅速开启统一资产治理与可视化体系的构建工作 。
方案设计
为了给碧桂园服务的IT资产体系画一张“全面、实时、能导航的地图”,我们提出了一套系统性的解决方案,整个系统共划分为五层架构,确保了从数据采集、处理、存储、服务到展示的全流程闭环。
图2 整体架构设计
| “双数据库模式”
相较于传统的关系型数据库,Neo4j 在处理关系密集型数据(如网络拓扑)方面具备天然优势。因此,我们采用MySQL来承接结构化数据,将关系型图分析交由Neo4j,既保证了系统的稳定性,也增强了可视化扩展能力。
维度 | MySQL | Neo4j |
---|---|---|
数据模型 | 表格、主外键 | 节点-关系-属性 |
拓扑遍历性能 | 差,需多表JOIN | 快,O(1)级别查找关系路径 |
可视化支持 | 弱,需额外建模 | 原生支持图可视化 |
适用场景 | CMDB结构化配置管理 | 拓扑展示、路径推演、异常检测分析 |
| 图数据库(Neo4j)性能验证
为验证图数据库(Neo4j)能否高效解决传统关系型数据库在网络关系查询上的瓶颈,并评估其生成动态拓扑的可行性,我们做了一个小范围的测试,对比现有基于 MySQL的CMDB关系查询 vs. Neo4j图遍历。结果非常惊喜:在查询深层关系时,图数据库的速度是传统数据库的10倍以上;写程序的工作量也减少了70%。
图3 PoC关键测试场景与结果
方案落地
碧桂园服务CMDB(配置管理数据库)与网络拓扑平台的建设并非一蹴而就,而是在“专家经验梳理、云平台数据治理、技术落地并行”的推进策略下稳步推进,确保架构、数据、功能与价值能够真正闭环落地。
图4 碧桂园服务CMDB & 网络拓扑图建设路径
| 专家经验梳理:
沉淀碧服最佳实践,统一资产视角
➤ 云产品标准分类体系:结合碧桂园服务现有云平台资源,我们梳理了8大类104 小类云产品资源模型,全面涵盖阿里云、腾讯云主平台上的 IaaS、PaaS、安全、网络等模块,支撑碧桂园服务超过100+个系统资产治理。
➤ 系统级逻辑关系沉淀:明确并建模了如系统 ↔ 域名 ↔ DNS ↔ DDoS ↔ WAF ↔ SLB ↔ ECS 服务器 等在实际运维中高度相关的 20+ 关系链路,使每一条服务路径在拓扑图上都清晰可见。
➤ 基于图模型的异常规则沉淀:汇聚安全、网络专家经验,建模出如:公网域名未挂载 DDoS/WAF;高危端口未加限;安全组冗余、跨环境配置重复;全网段规则误配置等10+类安全隐患识别规则。
图5 基于图DB的安全合规检查
| 云平台数据治理:
自动采集 × 差异识别 × 标准入模
➤ 统一 ETL 架构:构建了超100+条ETL 任务,打通阿里云、腾讯云 OpenAPI、K8s API、SNMP、CSV/Excel 文件等采集链路,自动化抓取资源现状与变更日志。
➤ CI (配置项)数据建模标准化:基于碧桂园服务业务需求与平台技术架构,建模了70+类云产品CI模型,覆盖资产标识、关系字段、标签属性、运行状态等核心信息。
| 技术平台落地:
高性能图数据库 × 可视化前端集成
➤ 图数据库构建与优化:
a.设计与实现了稳定的 CI → 节点、CI 关系 → 边的转换机制;
b.Neo4j 中已写入 10 万+ 节点与百万级边关系;
c.建立了多种复合索引与属性增强策略,提升图计算查询效率。
➤ 可视化前端集成:
a.基于 Neovis.js + Force Graph 实现了支持“拖拽”、“缩放”、“点击跳转”的拓扑图;
b.实现从任意系统/节点出发,展示其关联的上下游系统链路。
| 建设成果展示
碧桂园服务CMDB的百万级IT资产属性与多维关联关系,在图数据库技术基础上的结构化沉淀与多维实时观测。
百万级IT资产信息的图数据库结构化管理与展示
视频 百万级IT资产信息的图数据库结构化管理与展示
| CMDB数据底座全面夯实
➤ 实现IT资产关系自动化关联:基于CMDB构建资产关联模型,自动管理业务系统-中间件-数据库-存储的依赖链条,为图分析提供结构化数据基石。
图6 CMDB资产自动编排管理
➤ IT资产信息准确率提升至98%以上:通过自动化采集与标准化建模,实现服务器、网络设备、应用、云资源等8大类IT资产的100%纳管,告别“表格运维”时代。
图7 IT资产统计报表
| Neo4j图技术赋能碧服数字化网络关系升级
➤ 故障影响分析从“小时级”缩短至“分钟级”:将CMDB数据映射为动态图谱,当出现异常情况时支持毫秒级查询服务器、网络、应用间等相关联信息,并通过图形化界面实时展示。
图8 应用间白名单授信链路示例
➤ 推动多维风险自动化审查防控:针对域名600+子域名的自动化审查引擎,通过多层次防护体检机制,完成从内外网访问入口到应用层的穿透式安全检查;针对云安全组,开发超大规模IP空间治理方案,基于300+安全组及数十万IP的配置数据,建立CIDR/协议/端口结构化治理模型,智能识别Any-Any全开放规则等高危配置,并构建“安全组-子网-IP”三级依赖图谱。
图9 基于Neo4j的风险分析结果
在云计算、微服务与容器化技术蓬勃发展的时代背景下,复杂IT架构如雨后春笋般涌现,传统的人工运维模式正遭遇挑战。而图数据库凭借其卓越的关联数据建模能力和高效的关系分析能力,正逐步成为云原生CMDB智能运维(AIOps)技术底座重塑的核心驱动力,引领运维领域从“被动救火”迈向“主动预测”的革命性变革。
未来,碧桂园服务将持续深耕这一技术,进一步拓展变更影响推演、故障模式比对和异常链路快速定位等能力,推动运维体系向自感知、自学习、自愈合的方向演进。
本文作者
孔令镇 碧桂园服务python高级工程师
何家麟 碧桂园服务基础设施运维高级工程师
指导人
杜鹏 碧桂园服务数字赋能部总经理