圆桌论坛精华实录 | AI是重构运维逻辑的颠覆性革命?博睿数据与行业大咖亲授“AI+可观测性”的破局之道
全文约6500字 阅读时间约15分钟。
当前,人工智能正处于高速发展阶段,以前所未有的深度与广度重塑商业规则,推动企业数字化转型从规模化扩张迈入精细化深耕。面对这场汹涌而来的智能变革,运维领域正面临一道核心命题:AI究竟是提升效率的辅助工具,还是重构运维逻辑的颠覆性革命?
国内金融、制造等关键行业已步入数字化深水区,却普遍陷入运维复杂度激增、故障定位滞后、数据价值难以转化等行业焦虑。如何让AI技术真正落地运维场景?如何通过可观测性打通全链路数据孤岛?如何平衡技术创新与业务实用价值?这些痛点,正成为企业突破增长瓶颈的迫切诉求。
近日,在博睿数据“Bonree ONE 2025秋季版全球产品发布会”的圆桌论坛环节,业界技术领袖齐聚一堂,围绕以上行业痛点以及“AI + 可观测的探索、实践和展望”这一话题展开深度对话。圆桌论坛由博睿数据CTO程捷主持,特邀四位来自金融、制造等关键领域的技术领袖,共同探讨了AI+可观测性在实战中的应用价值与未来图景。
论坛嘉宾:
黄保庆:华为数字金融军团运维负责人
王泽峰:深圳农商银行运维大模型架构师
贺占湘:豪鹏科技信息部运维负责人
权宁升:国投证券全链路可观测负责人
下文为“AI + 可观测的探索、实践和展望”圆桌论坛精华实录。
议题一:当前 AI+可观测性面临的挑战
从监控到可观测,数据与技术的跨越融合
程捷:在当前数字化浪潮中,系统复杂性呈指数级增长,传统监控手段已力不从心。可观测性让我们能够洞察系统内部的真实状态,AI则赋予我们预测和自主行动的能力,两者的结合正在重新定义运维的边界和价值。今天我们将聚焦三个核心话题与大家共同探讨:第一,当前AI+可观测性面临的挑战;第二,AI+可观测性的落地场景;第三,AI+可观测性对运维组织文化、协作方式带来的重大变革。当前,系统复杂性、故障定位、体验保障是我们共同的挑战,而解决这些问题的第一步,必然是获取高质量数据并建立统一的可观测体系。Bonree ONE在过去两年持续完善可观测统一全域数据模型,核心目标就是解决数据质量问题。想请教各位,在构建企业级可观测性平台的过程中,遇到最大的挑战是什么?
黄保庆:我认为可观测性领域主要面临两大挑战。第一,从全域数据层面来看,日志、链路、拓扑告警、指标等多维数据的融合,如何高效实现数据集成,是实际案例中遇到的一大挑战。第二,以银行为例,核心系统完成分布式架构转型后,运维对象和监控数据规模大幅增长。某股份制银行每天产生约100TB日志,如此庞大的数据量,对数据接入性能和处理效率提出了极高要求。
王泽峰:我们前期研究和调研发现,数据割裂是推进可观测性建设的最大阻碍。告警信息分布在各个系统中,很难将其有效串联起来,这是我们实际面临的核心问题。
贺占湘:结合豪鹏科技的发展历程,我们的监控体系构建和大部分企业类似,初期依赖手工脚本及Zabbix、Prometheus等工具。这些工具能告知某台机器CPU满负荷或数据库反应慢,但无法应对复杂故障。豪鹏科技是新能源锂电池制造企业,与金融等行业存在差异,比如惠州工厂的自动化设备有复杂链路,会跨地域调用深圳工厂的资源。当产线出现业务停摆时,Zabbix显示服务器资源正常,Prometheus提示数据库无异常,问题可能出在网络波动、微服务接口超时等方面,此前复杂故障的排查往往需要小时级别,引入博睿数据全链路可观测后,能够精准定位复杂链路调度中的问题接口,排查效率大幅提升,为运维工作带来了质的飞跃。
权宁升:国投证券在数据分析初期整合了所有运维数据,但数据间的串联难度极大。这并非技术问题,更多需要各开发部门配合,技术层面反而相对简单,数据串联却耗费了大量时间。我认为,提前做好数据标准化及处理加工,对后续整体链路串联至关重要。这一经验也应用到了新一代架构建设中,提前设定好所有需要的ID,为项目推进奠定了良好基础。
程捷:我今年接触了很多券商客户,他们都想推进数据融合,但普遍存在顾虑:博睿数据能否帮助他们实现全量数据融合?正如您调研,国投证券是证券行业真正落地全链路可观测的首家机构,具有开创性意义,对整个行业都有借鉴和鼓舞作用。想请教您,在众多券商想做而不敢做的情况下,国投证券是如何规划体系,打通从券商前台业务到后台核心交易的每一个环节?过程中是否存在一些外行难以想象的数据盲区?
权宁升:核心前提是我们已经搭建好了运维数据底座,在此基础上自然要推进全链路建设。初期我们只是想找到一条完整通路,尝试金融商店等场景后,最终在手机证券委托场景中实现了突破。数据串联和标准化过程中,每一条数据都有其特性,会基于时间戳、业务逻辑架构生成,串联时需要考虑当日唯一性、标准性、位数一致性等多个问题。这个过程中遇到了诸多挑战,真正实现数据串联后,确实令人振奋。很多人觉得 “把数据串起来就行”,但实际操作远非如此简单。核心问题不在技术,而在数据标准化和处理,这涉及Kafka、ES等各类组件的索引构建、存储周期、调用方式等细节。数据孤岛确实存在,但只要保持耐心和对数据严谨的态度,就能找到数据间的关联。我们在处理APM数据调用时,面对80种数据类型,最终找到了能串联所有数据的方式。因此,做好全链路可观测,技术是基础,更重要的是严谨态度和足够耐心。
程捷:您的分享背后隐含两个关键前提:一是国投证券的原有数据基础打得非常扎实;二是国投证券的主动推进,让厂商和合作伙伴的助力变得更高效。仅靠厂商的力量,很难完成这样的项目,需要甲乙方默契配合、分工协作才能达到最佳效果。接下来想请教王总,今天的主题围绕AI展开,您作为运维大模型架构师,从您的视角来看,当前的可观测数据是否足够喂养运维大模型?如果想让AI在可观测领域和运维领域更好发挥作用,现有可观测数据需要进行哪些预处理或增强?
王泽峰:目前我们主要基于开源大模型,探索微调与预训练的应用方式,相关实践仍在推进中。开源大模型的现有能力已经很强,自主训练的模型未必能达到同等效果,在微调及垂直领域赋能方面,我们可以让模型更贴合自身需求,弥补垂直领域的知识盲点。我非常期待运维领域专有大模型的出现。
程捷:从各位专家的分享中,能看出大家对数据质量的重要性已形成明确共识。我认为高质量数据至少要满足三个条件:结构化、标准化、语义化。只有达到这三点,才能让AI大模型更好地理解数据语义,只有做好数据基础工作,AI才能更便捷地调用和消费数据,真正发挥价值。AI话题已讨论多年,众多厂商和甲方都推出过相关解决方案,但至今仍缺乏成熟的商业产品落地。我认为核心问题在于方法论层面:过于关注上层场景,而忽视了底层基础建设,这需要我们进行方法论的切换和改革。
议题二:AI+可观测性的落地场景
AI的赋能时刻——从“被动”到“主动”
程捷:接下来我们进入第二个议题:AI在可观测分析方面的落地场景。AI赋能可观测与运维的场景十分丰富,AI应成为运维团队的伙伴或数字员工,核心是思考人类与机器的协作模式。想请教各位专家,除了根因分析、告警异常检测、告警收敛等常见场景,从实践来看,AI在可观测领域未来最令人兴奋或期待的场景是什么?它对业务的真实价值体现在哪里?
黄保庆:从我们的实践及服务金融行业客户的经验来看,最具价值的场景是通过大模型实现全链路故障定界与根因分析。今天发布的 Bonree ONE 2025秋季版的产品能力,让我们看到了这类优质产品和能力的落地,我们期望通过这种能力,帮助银行等金融客户实现5分钟故障定级定位的运维目标,这是我们非常期待解决的价值场景。
王泽峰:大模型的出现,让我多年前的一个设想有了实现的可能。当时做灾备切换时,能否实现 “一句话切换”,出现问题后AI通过语音告知问题、询问是否需要处理和授权。我理想中的最终状态是,AI能支持声纹识别,通过自然语言交互完成操作,成为真正的伙伴,与人类交互无差异。人类负责提出业务需求、监督决策,AI负责执行。当前AI在根因定位分析、语音判断、声纹识别等方面还有很大发展空间,运维领域的AI应用前景广阔。
贺占湘:结合我们当前的落地场景,不谈未来,只说当下:AI+可观测性基于历史数据的异常检测。此前普通告警依赖人为设置固定阈值,但生产线场景复杂多变,不同时间段可能生产不同客户的产品。即便当前运行状态值在正常范围,AI也能通过历史数据预判趋势,告知未来一周可能出现的偏离,为我们预留充足的预防时间。
权宁升:我更关注运维故障的提前发现。故障发生后再进行根因分析或解决,始终不够理想。如果能在故障发生前实现预测,价值会更大。我们之前已做过相关尝试,通过趋势分析、调用链情况、日志数据等,判断故障可能出现的时间。比如面对大量行情涌入时,提前预测并及时扩缩容,保障业务稳定。
程捷:我非常认同权总的观点,无论故障发现速度是1分钟还是5秒钟,故障已经发生并对业务造成了损失,只是损失大小不同。业内常说“1-5-10”原则,本质上仍是故障发生后的应对。因此,博睿数据在这一方法论前增加了一个“0”,即“0-1-5-10”,核心目标是让80%的故障在发生前被识别、被处置。这也是我们接下来的发力重点。
回到话题,想请教黄总,华为自身业务及服务的客户场景都极为复杂,尤其是金融行业客户,场景更复杂、压力更大。当前通用大模型存在幻觉这个关键问题 ,而运维是严肃且实时性要求极高的场景,运维故障处置的实时性要求极高,部分客户已不满足“1-5-10”,而是追求“0.5-3-5”的更快响应。如果大模型的幻觉问题无法解决或有效避免,大模型驱动的故障预测与分析,离金融等高压行业的大规模应用还有多远?达到何种程度,金融机构的运维团队才敢采信其结果并采取行动?
黄保庆:目前基于大模型构建运维场景,行业内都在进行探索和实践。最基础的场景是运维问答,用于沉淀案例和知识库。但要解决故障发现、预测等核心问题,确实面临诸多挑战,幻觉就是常见问题——同一问题可能得到不同反馈,这是运维大模型在故障定位等场景中需要重点探索的方向。
从实践来看,华为在计算、网络、存储等单领域的故障定界与分析,结合行业实践经验和专家经验,已形成一定探索成果。这类场景的故障模型相对容易沉淀,成熟度较高,离大规模商用可能更近。但我们的目标是从应用或业务视角出发,解决从应用到云、网络的全链路故障定界与定位问题,这一领域目前难度较大,仍需行业共同探索。关于可信度,运维对准确性要求极高,目前没有统一标准答案。但我们认为,根因分析结论的准确率至少要达到90%,甚至追求100%的准确性。只有达到这样的技术要求,大模型驱动的运维应用大规模商用才未来可期。
程捷:我认为当前通用模型的奖励函数需要修正,要做到“知之为知之,不知为不知”,避免在没有数据支撑的情况下一本正经地错误回答,运维领域需要更严肃的大模型。
接下来想请教贺总,我们大多来自金融或IT行业,而您是制造业代表。豪鹏科技作为高科技制造业,运维对象包括物联网设备、生产系统等。AI+可观测性在保障生产连续性、提升产品品质方面,与其他行业相比有何不同?是否有独特场景?
贺占湘:目前我们的落地场景主要集中在IT系统,包括生产系统、资金系统、ERP决策系统等的业务连续性保障。这些系统一旦发生故障,生产将直接停摆,造成惨重损失。我们主要通过三个方面保障业务连续性:一是AI+可观测性的容量预测,根据排程计划预判服务器资源负载,提前做好扩容或预防;二是快速故障定位,通过全链路监控实现分钟级排查;三是我们下一步正在探索的IT与OT融合,将电芯生产全链路涉及的IT系统数据,与车间生产线物联网设备数据按时间线绑定,为每个电芯建立完整的数据履历,最终实现数字孪生。通过数字孪生,可追溯电芯生产全流程及后续安全等相关问题。
程捷:数字孪生也是我们的重要规划。在设计3.0版本数据模型时,我曾向研发和产品团队分享,可观测模型应实现数字孪生——将物理世界中的所有监控对象模型化,还原所有对象之间的静态关系和运行状态关系,这样才能真正实现“可观测”。这一目标目前仍有较长的路要走,但值得专业可观测厂商持续加大投入。
议题三:AI + 可观测性对运维组织文化、
协作方式带来的重大变革
程捷:前面我们探讨了挑战和场景,接下来聊聊AI+可观测性对组织、文化的变革展望。任何革命性新技术的推广落地,最终都会推动人与组织的变革。想请教各位,引入AI和可观测性后,对运维团队的技能结构、协作流程、组织文化会带来哪些冲击和改变?作为团队负责人,你们如何带领团队适应这场变革?
黄保庆:从华为的角度来看,最大的改变在于技能要求的转变。比如需要掌握基于workflow的运维场景编排能力,以及MCP服务封装等相关技能,这对团队提出了新的挑战。从服务的客户来看,金融机构的组织架构也发生了明显变化,不少机构专门成立了智算中心或AI部门,负责AI平台能力建设。未来,AI应用的问题分析与定位,包括大模型调用、智能体运行等相关问题的排查,也将成为新的挑战。
王泽峰:我们公司自上而下都非常重视AI,在考核上对AI相关工作有所倾斜,同时组织了大量培训和交流活动。我们深刻认识到AI的重要性,积极拥抱AI变革,通过技术骨干带动其他成员,让大家主动适应并掌握相关技能。
贺占湘:我们团队的变革是循序渐进的赋能,主要体现在三个方面:一是技能转变,从以往擅长被动故障处理,转向主动分析,需要学习APM相关指标的使用和配置等专业知识;二是协作模式升级,打破部门壁垒,以数据驱动构建协同机制,将所有数据整合至大屏,IT、工艺、生产等部门人员共同观测数据、协同决策;三是文化理念转变,从“救火英雄”的认知,转向“预防专家”的理念,引导团队聚焦故障预防。
权宁升:我更多从用户角度考虑AI的应用价值。我负责ES平台和ClickHouse平台,用户使用过程中面临两个核心需求:一是ES基于Lucene开发,语法复杂、学习成本高,用户希望通过自然语言处理,用中文描述查询需求就能自动生成对应查询语句,提升使用便捷性;二是全链路串联后涉及大量指标和日志数据,用户希望通过简单提问就能获取数据是否存在问题的分析结果。这需要AI充分了解公司内部业务数据,因此我们在部署AI时,更注重业务数据的全面性,将内部所有数据纳入训练,构建内部模型,更好地为用户解决复杂数据分析问题。所以我认为AI的价值主要体现在两方面:一是让用户使用更便捷;二是帮助用户解决复杂数据分析问题。
程捷:我也分享一下博睿数据的实践。我们对产研组织架构进行了较大调整,核心思路是以AI为中心重构组织逻辑。软件领域的康威定律指出,组织架构决定最终的软件形态,要打造以AI为中心的新一代产品,首先需要调整组织架构。我们将团队拆分为两大板块:一是AI底座团队,负责数据底座和AI基础能力建设;二是AI上层应用团队,推动所有应用AI化。不同于以往按业务场景划分团队,现在按AI分层重构架构。短期内可能看不到明显变化,但运行一段时间后,团队的行为模式和认知会随之转变。
最后想请教王总,我非常期待运维领域出现更严肃的专有大模型。作为行业前沿探索者,您能否展望一下,未来3年AI+可观测性会演化成何种形态?届时运维团队或运维工程师的工作方式会发生哪些较大改变?
王泽峰:当前AI+可观测性处于发展初级阶段,相信3年后将进入成熟期,行业会呈现优胜劣汰的格局。随着AI技术的快速发展,AI+可观测性将更加智能、高效,运维层面会实现大幅提升。
程捷:最后我来做一个简单总结:
-
从华为的实践中,我们学到了复杂严苛环境下构建可观测性的战略定力和全局视角;
-
从深圳农商行、国投证券的探索中,看到了金融行业在核心领域推动技术深度创新、实现业务全链路融合的勇气;
-
从豪鹏科技的经验中,感受到了AI+可观测性在实体经济中焕发出的强大生命力。
过程中我们也谈到了诸多挑战,比如数据质量问题、组织架构适配 AI 时代的问题等,但共识十分明确:AI与可观测性的结合已不是选择题,而是通往未来智能运维的必由之路。我们兴奋地看到,AI+可观测性让Bonree ONE的产品战略从可观测平台升级为运维团队的智能伙伴。2025年是Bonree ONE真正的AI元年,此前我们谈到的AI更多是机器学习,并非真正的通用型AI。如今,我们推出了小睿助理,通过类人交互的方式与用户沟通,这标志着我们正式迈入AI新时代。
再次感谢四位嘉宾的真知灼见,也感谢在场各位听众的参与,希望今天的论坛能给大家带来启发。
