当前位置：首页 > news >正文

系分论文《论人工智能在网络安全态势感知系统中的分析与设计》

news 2025/9/22 7:54:34

软考系分、架构论文范文系列

摘要

2023年1月，我作为安全系统分析师，主导了某省级能源集团“基于AI的下一代网络安全态势感知平台”的规划与设计工作。该集团网络环境极其复杂，下辖数十个与物理生产直接关联的生产控制系统（ICS），面临着日益增多的、以窃取关键数据和破坏生产为目标的高级持续性威胁（APT）攻击的严峻挑战。其现有的安全运营中心（SOC）严重依赖基于规则的SIEM系统，每日产生数万条告警，告警疲劳严重，响应严重滞后。项目旨在构建一个能主动发现未知威胁、智能研判攻击事件、协同响应安全风险的智慧安全运营体系，核心目标是将未知威胁的平均发现时间（MTTD）从72小时缩短至10小时以内。本文以此项目为例，重点阐述了“基于UEBA的用户行为建模、融合知识图谱的攻击链分析、自动化安全编排与响应（SOAR）”三大AI驱动的安全策略。我们通过机器学习算法对每日TB级的网络流量和终端日志进行建模，成功识别出多起利用合法身份进行潜伏的异常行为；利用知识图谱技术，将海量孤立的告警自动关联成符合MITRE ATT&CK框架的攻击事件，将告警误报率降低了90%。平台上线后，集团的平均威胁发现时间缩短至8小时，安全事件的平均响应时间（MTTR）从4小时缩短至30分钟，成功防御了两次具有APT特征的模拟攻击。

在这里插入图片描述

正文

关键信息基础设施（Critical Infrastructure）的网络安全，是国家安全的基石。我所服务的这家省级能源集团，其业务不仅涉及传统的办公网（IT网络），更核心的是直接控制着发电、输电、配电等物理生产流程的工业控制系统网络（OT网络）。IT与OT网络的深度融合，在带来生产效率提升的同时，也极大地扩展了攻击面。针对能源行业的网络攻击，其目的往往不再是简单的炫技或经济利益，而是具有国家背景的、旨在窃取核心数据、甚至破坏物理生产的、高度组织化的高级持续性威胁（APT）。这类攻击通常手法隐蔽、周期漫长，能够绕过传统的、基于已知签名和静态规则的防火墙、IDS等安全设备。该集团现有的安全运营中心（SOC）正是在这种新型威胁面前显得力不从心。其核心的SIEM（安全信息与事件管理）系统，虽然汇聚了海量日志，但其分析能力主要依赖于人工编写的关联规则，导致了两个致命问题：一是“看不见”，对利用合法凭证、正常协议进行的未知攻击行为几乎无能为力；二是“看不懂”，每天产生的数万条低质量告警，让数量有限的安全分析师陷入“告警疲劳”，真正有价值的威胁线索被淹没其中。为了从根本上扭转这种被动挨打的局面，集团决策层决心引入人工智能技术，建设“下一代网络安全态势感知平台”，实现从“事件驱动”的被动响应，向“数据驱动”的主动防御和智能运营的战略转型。作为该项目的安全系统分析师，我的核心职责是深入分析APT攻击的特点与集团现有防御体系的短板，并设计一套能够将AI能力深度融合到威胁检测、分析、响应全流程的智慧安全运营架构。

人工智能技术，特别是机器学习，正在为网络安全领域带来一场深刻的革命。它将安全分析的范式从“匹配已知”扩展到了“发现未知”。一个基于AI的智慧安全运营体系，其核心是构建一个数据驱动的、持续学习的智能分析大脑.1 该大脑的能力主要体现在三个递进的层次：

1. 智能检测（Intelligent Detection）：核心是用户与实体行为分析（UEBA），通过无监督学习等方法，为网络中的每个用户和设备建立动态的行为基线，从而发现偏离常规的、可疑的异常行为，这是发现未知威胁的关键。2. 智能分析（Intelligent Analysis）：核心是利用安全知识图谱等技术，将来自不同传感器的、海量的、碎片化的告警和日志信息，自动进行上下文关联和逻辑推理，将“点”状的告警串联成“线”状的攻击链，从而还原攻击全貌，大幅降低误报，提升研判效率。3. 智能响应（Intelligent Response）：核心是安全编排、自动化与响应（SOAR），通过预设的剧本（Playbook），将分析确认后的威胁事件，自动转化为一系列联动的防御动作，实现分钟级的快速响应和闭环处置。设计这样一套体系，要求系统分析师不仅要精通网络攻防技术，更要具备数据科学和AI建模的跨界能力。

在项目实践中，我们设计的第一个核心能力是基于用户与实体行为分析（UEBA）的智能检测引擎。我们深刻认识到，APT攻击的核心特点之一就是“合法身份的非法利用”（Living off the Land）。攻击者窃取合法凭证后，其许多操作在单个来看都是正常的。因此，我们设计的关键是“不看他做了什么，而看他做得对不对”。为此，我们构建了一个大规模的数据湖，通过部署在网络关键节点和核心服务器上的探针，采集了包括全流量数据（Netflow）、DNS请求日志、AD域控认证日志、终端EDR日志、VPN登录日志在内的多源异构数据，日均入湖数据量超过1.5TB。我们利用分布式计算框架Spark MLlib，为集团内的超过2万个用户账户和5000台关键服务器（实体）都建立了一个动态的、多维度的行为基线模型。该模型综合运用了多种无监督学习算法：我们使用孤立森林（Isolation Forest）算法来检测单点异常，如某账户在非工作时间、异地IP登录；使用LSTM（长短期记忆网络）等序列模型来学习用户命令行的操作序列，以发现异常的指令组合；使用图聚类算法来分析内部主机间的访问关系，以发现横向移动的迹象。当某个用户或实体的当前行为，在多个维度上显著偏离其过去30天内学习到的行为基线时，系统就会生成一个高置信度的“异常分”，并触发告警。这一机制成功地在多次红蓝对抗演练中，发现了蓝队利用合法运维工具进行的潜伏和横向移动行为，而这些行为均未被传统IDS告警。

我们构建了融合安全知识图谱的智能关联分析引擎，以解决“告警泛滥”和“看不懂”的难题。我们设计了一个统一的安全知识图谱本体（Ontology），其中定义了IP、主机、用户、进程、文件、漏洞、告警、威胁情报等数十种节点类型，以及“登录”、“访问”、“利用”、“属于”等上百种关系类型。我们将来自UEBA引擎的异常告警、来自威胁情报平台（TIP）的IOC（失陷指标）信息、来自资产管理系统（CMDB）的主机信息、来自漏洞扫描系统的漏洞信息，全部实时地、结构化地加载到这个基于Neo4j图数据库构建的知识图谱中。当一个新的高分异常告警产生时，它不再是一个孤立的点，而是图谱中的一个新节点。我们的关联分析引擎会立即以该节点为中心，在图谱中进行多跳（Multi-hop）的关联路径查询和模式匹配。例如，引擎可能会发现这样一条攻击路径：“[外部IP A (来自威胁情报的已知C2服务器)] -> (连接) -> -> (创建进程) -> -> (横向移动) -> -> (利用漏洞) -> [漏洞E (高危漏洞)]”。通过这种方式，系统能够自动将多条低置信度的零散告警，串联成一条高置信度的、符合MITRE ATT&CK攻击框架描述的完整攻击事件，并以可视化的方式呈现给分析师。这使得每日需要人工研判的告警数量从数万条锐减至几十个“事件”，告警的误报率降低了90%以上。

最后，我们实现了基于SOAR（安全编排、自动化与响应）的快速、闭环的处置能力。我们深知，发现和分析威胁的最终价值在于快速响应，每延迟一分钟，损失都可能呈指数级增长。我们选用了开源的SOAR平台Shuffle，并设计了一个可视化的剧本（Playbook）编排器。我们与客户的安全运营团队合作，将他们应对不同类型安全事件的最佳实践，固化为超过30个标准化的响应剧本。例如，针对“疑似主机失陷”事件，我们定义了一个包含15个步骤的剧本，其核心流程包括：1. 自动富化：自动查询CMDB获取主机资产信息、查询TIP获取相关IP和域名的信誉。2. 自动研判：调用沙箱服务对可疑文件进行动态分析。3. 联动处置：若确认为恶意，则自动调用防火墙API封禁恶意IP、调用EDR API隔离受感染主机、调用AD域控API禁用相关账户。4. 通知与工单：自动创建ITSM工单，并通过邮件和企业微信通知相关的安全管理员和资产负责人。当态势感知平台确认一个高危攻击事件后，分析师可以一键触发相应的剧本，整个响应流程在分钟级内自动完成。这套自动化响应机制将安全事件的平均响应时间（MTTR）从过去依赖电话和邮件沟通的4小时，大幅缩短至30分钟以内。

平台于2023年底整体上线试运行，极大地提升了该能源集团的主动防御和安全运营效率。在上线后的首次攻防演习中，平台成功在8小时内发现了攻击队的初期渗透行为，并自动完成了对攻击入口的封堵，相比之下，往年演习中类似威胁的发现时间通常超过3天。回顾整个项目，最大的技术挑战在于如何处理工业控制系统（OT）网络中的海量、异构、非标准的私有协议数据，并从中进行有效的行为建模。我们通过与多家工控设备厂商深度合作，部署了支持协议深度解析的专用探针，并采用联邦学习的方式，在不将敏感生产数据传出OT域的前提下，训练了针对特定工控场景的异常检测模型，最终在保障生产安全的前提下解决了这一难题。这次实践深刻地证明，在与高级威胁的持续对抗中，人工智能已从一个可选项，变为了构建下一代防御体系的必需品。作为安全系统分析师，我们的角色正在发生深刻的转变：我们不仅要成为网络攻防的专家，更要成为数据科学家和AI工程师，能够设计和构建出数据驱动、智能驱动的智慧安全大脑，才能在这场没有硝烟的战争中，为国家关键信息基础设施筑起一道坚实的防线。