当前位置：首页 > news >正文

利用大型语言模型有效识别网络威胁情报报告中的攻击技术

news 2025/7/2 11:13:31

摘要

本研究评估了网络威胁情报（CTI）提取方法在识别来自网络威胁报告中的攻击技术方面的性能，这些报告可从网络上获取，并使用了 MITRE ATT&CK 框架。我们分析了四种配置，这些配置利用了最先进的工具，包括威胁报告 ATT&CK 映射器（TRAM）和开源大型语言模型（LLM），例如 Llama2。我们的研究结果揭示了重大挑战，包括类别不平衡、过拟合和特定领域的复杂性，这些都阻碍了准确的技术提取。为了缓解这些问题，我们提出了一种新颖的两步流程：首先，LLM 总结报告；其次，重新训练的 SciBERT 模型处理使用 LLM 生成的数据增强的重新平衡数据集。与基线模型相比，这种方法实现了 F1 分数的提高，其中几种攻击技术的 F1 分数超过 0.90。我们的贡献提高了基于 Web 的 CTI 系统的效率，并支持互联数字环境中的协作网络安全运营，为未来研究集成人机协作平台铺平了道路。

网络威胁情报、大型语言模型、文本摘要、网络安全、MITRE ATT&CK 技术、网络报告

1 引言

在当今快速发展的数字化环境中，网络安全已成为全球组织机构关注的关键问题。安全运营中心（SOC）通过利用人工智能和机器学习等先进技术[8]，在防御日益复杂的网络威胁方面发挥着关键作用。这些技术增强了实时检测、分析和响应威胁的能力，从而提高了数字基础设施的弹性。此外，人机协作和协同的整合正日益受到关注，并成为提高不同领域效率和效力的策略[7, 13, 16]，包括网络安全运营[1, 5, 19, 20]。通过将人类专家的分析优势与人工智能的快速处理能力相结合，安全运营中心可以更有效地管理他们每天遇到的庞大而复杂的数据流。网络安全分析师通常依赖于网络威胁情报（CTI）报告，以随时了解不断演变的威胁态势。

网络威胁情报报告是综合性文档，可为组织机构提供有关当前和新兴网络威胁的宝贵见解。这些报告通常由网络安全分析师或专门机构编写，旨在帮助企业和政府实体了解威胁形势，并采取积极措施来保护其数字资产[15]。网络威胁情报报告的关键组成部分包括：(i) 各种网络威胁的详细描述，例如恶意软件、勒索软件、网络钓鱼攻击和高级持续性威胁 (APT)；(ii) 威胁行为者的概况，包括其动机、策略、技术和程序 (TTP)；(iii) 入侵指标 (IOC)，例如指示潜在违规行为的 IP 地址、恶意软件哈希或域名；以及 (iv) 旨在应对这些威胁的建议缓解策略。

然而，由于CTI报告通常是非结构化的且冗长的，因此对其进行手动分析带来了重大挑战。此类报告可能长达数十页，使得SOC分析师难以迅速提取关键信息[17]。这种低效率加剧了警报疲劳这一更广泛的问题，研究表明，高达70%的SOC分析师对警报数量感到不知所措，导致43%的人禁用警报作为一种应对机制[18，22]。鉴于现代网络安全运营在很大程度上依赖于实时的、基于网络的协作和决策，解决这些低效率问题对于维持有效的威胁防御至关重要。

为了缓解这些挑战，已经开发了自动化的CTI提取方法，从而有助于从大量网络来源的报告中识别IOC和TTP [4, 9]。尽管人工智能和自然语言处理（NLP）取得了进展，但在自动化CTI分析方面仍然存在一些障碍：（i）领域复杂性：CTI报告通常包含与标准英语不同的专业术语，阻碍了通用NLP工具的准确提取；（ii）冗长性：关于网络攻击的相关信息通常埋藏在冗长的文档中。例如，一份42页的报告[6]可能只用几个段落来描述实际的攻击细节；以及（iii）关系提取：准确捕获实体之间的关系，例如攻击者、工具和受害者，对于理解TTP至关重要，但当前的NLP系统难以处理这项复杂的任务[10]。

本研究旨在通过探索创新方法来应对这些挑战，这些方法可以增强CTI报告的自动提取和利用，最终使SOC能够在面对不断演变的 cyber 威胁时做出更明智和及时的决策。鉴于这些挑战，本研究探讨以下研究问题：

RQ1：独立的原始大型语言模型（LLM）在CTI提取中的效果如何？

RQ2：基于LLM的增强能否提高自动化CTI提取方法的性能？

为了回答这些研究问题，我们做出了以下贡献：

综合评估：我们使用四种配置评估CTI提取方法，如图1所示。我们的评估突出了每种配置的优点和缺点，其中表现最佳的基线（即，使用原始SciBert的TRAM）由于过度拟合和类别不平衡，仅实现了略高于0.4的F1分数。

新型提取流程：受到LLM最新进展的启发，我们提出了一个两步流程：（i）使用GPT-3.5进行CTI报告摘要：减少报告的冗长性，专注于关键威胁信息；以及（ii）重新训练的SciBERT模型：使用在重新平衡的数据集上训练的SciBERT模型[2]，以解决类别不平衡问题并提高分类准确率，从而在识别几种攻击技术时，F1值超过0.90。

本文余下部分的组织结构如下：第2节回顾了CTI提取方面的当前进展和局限性。第3节详细介绍了评估方法和提出的方法。第4节介绍了评估结果。第5节总结了这项工作，并概述了局限性和未来的研究方向1。

2 背景与相关工作

本节概述了网络威胁情报（CTI）、其提取和共享过程，以及现有CTI提取方法的当前局限性，强调了改进方法论的必要性。

2.1 网络威胁情报

网络威胁情报（CTI）作为一种预防网络攻击的防御机制。根据美国国家标准与技术研究院（NIST）的定义，CTI 被定义为“经过聚合、转换、分析、解释或丰富，从而为决策过程提供必要背景信息的威胁信息”[11]。

评估网络威胁情报（CTI）的首要标准是其可操作性。根据 Pawlinski 等人 [14] 的观点，可操作的网络威胁情报必须具备以下特征：（i）相关性：适用于接收者的责任范围；（ii）时效性：信息必须足够新近才能有效；延迟可能导致网络威胁情报过时；（iii）准确性：信息应经过验证且无错误；（iv）完整性：提供充分的背景信息以理解过去的网络攻击；以及（v）可摄取性：以接收者系统可以处理的格式共享。

2.2 CTI提取与共享

现代CTI提取方法通常遵循一个标准化的流程，包括以下步骤：（i）识别来源：选择相关的威胁报告进行分析；（ii）报告爬取：自动从各种存储库收集报告；（iii）文本处理和标注：提取和注释相关实体，例如入侵指标（IOC）和战术、技术和程序（TTP）；（iv）文本摘要：使用基于学习的方法减少冗长性，同时保留关键信息；（v）处理输出：将提取的数据转换为适合下游应用程序的格式，例如知识图谱。已经开发了诸如AttackG [9]和TRAM [4]之类的方法来自动化CTI提取。这些方法利用NLP技术来识别基于MITRE ATT&CK框架的攻击技术。

CTI提取方法当前的局限性[NT0]。尽管取得了进展，CTI提取方法仍面临着阻碍其有效性的重大挑战：（i）领域复杂性：CTI报告包含特定于网络安全的术语，这些术语与标准英语不同，使得通用NLP模型难以准确处理。（ii）冗长性：许多CTI报告篇幅很长，但只有一小部分包含可操作的威胁信息。例如，一份42页的报告可能只包含几句话详细描述实际攻击[6]。（iii）关系提取：提取实体（例如，攻击者、工具、受害者）之间的关系至关重要，但对于现有的NLP系统来说仍然具有挑战性[10]。（iv）类别不平衡：许多提取方法都存在类别不平衡的问题，某些技术过度表示，而其他技术则表示不足。（v）复制不一致性：由于条件和数据集的不同，研究论文中的性能声明通常无法在不同的数据集上复制。

这些挑战导致了低精确率、召回率和 F1 分数，突显了对更有效的 CTI 提取方法的需求。我们的工作试图通过对多种 CTI 提取方法进行全面评估，并引入一种新的提取流程，来解决现有 CTI 提取方法的一些局限性。

3 方法论

我们的评估方法包括五个关键组成部分：提取方法选择、数据集准备、实验设计和评估指标。

3.1 提取方法选择

为了回答研究问题RQ1，我们选择了vanilla Llama2的三个变体[21]，即7B、13B和70B，在零样本提示下进行。为了回答研究问题RQ2，我们选择了TRAM，一种基于SciBERT的方法，旨在将句子分类到MITRE ATT&CK框架中最常见的50种技术中[4]，作为基础模型，并使用有和没有基于LLM的增强的不同配置进行评估。

3.2 真实数据集

使用了两个带注释的数据集作为评估的真值来源：

对抗模拟库（AEL）：该数据集包含关于攻击活动（例如，APT29、Carbanak、FIN6）的简明报告，并标注了MITRE ATT&CK技术ID

攻击技术数据集（ATD）：该数据集包含更长的报告（例如，OceanLotus、Sowbug、MuddyWater），并标注了详细的技术信息[12]

图1：我们的评估方法使用四种配置。

报告经过预处理，移除了技术ID、超链接和无关内容，以确保评估的公正性。为了与TRAM的训练数据保持一致，排除了MITRE ATT&CK框架中最常见的50种技术之外的技术。

3.3 实验设计

如图1所示，我们使用四种实验设置来评估和比较CTI提取方法：

用于CTI提取的独立LLM：评估了开源LLM（Llama2）的零样本提示能力。计算了精确率、召回率和F1分数，以及真阳性、假阳性和假阴性的计数。

原始TRAM配置：TRAM的性能评估使用了预训练的SciBERT模型，置信度阈值分别为25%和80%。我们将其表示为原始SciBERT。

采用基于LLM的总结的TRAM：此配置使用由LLM（GPT-3.5）生成的总结性CTI报告，然后进行SciBERT分类，置信水平分别为25%和75%。我们将其表示为aCTIon。注意：此选择基于最佳性能设置。

基于LLM的总结、重平衡和再训练的TRAM：在此配置中，我们使用GPT-3.5增强代表性不足的技术，并对代表性过高的技术进行降采样。CTI报告使用GPT-3.5进行总结，以减少冗长性并保留与攻击技术相关的相关内容。然后，总结后的报告由在重新平衡的数据集上重新训练的SciBERT模型处理。我们使用了三种训练设置，即再训练、微调和再训练与重交叉验证，最终得到9种配置用于评估TRAM。

表1：Llama2模型在AEL数据集上的假阳性和假阴性比较。“-”号表示假阴性，“+”号表示假阳性。

评估指标[NT0]。每个提取方法的性能均使用标准分类指标进行评估：精确率、召回率和 F1 分数。注：由于篇幅限制，本文仅报告 F1 分数。其他分析包括真阳性、假阳性和假阴性的计数。对于 AttackG 和 LLM，如果提取的技术名称或 ID 与真实情况相符，则认为结果正确。对于 TRAM，需要技术名称和 ID 完全匹配。

4 结果

本节介绍用于 CTI 提取的独立开源 LLM 的评估结果，然后对不同的 TRAM 配置进行比较分析，重点介绍模型改进和数据集重新平衡对性能的影响。

4.1 独立开源LLM的评估

为了解决研究问题1（RQ1），我们使用AEL数据集中的六份报告评估了LLama2的性能，每份报告少于500字。这确保了可控的处理时间，并减轻了依赖爆炸问题。表 1 比较了各种版本的LLama2（7B、13B和70B）的假阳性和假阴性数量。值得注意的是，较大的70B LLama2模型在某些情况下往往会产生更多的假阳性。例如，在FIN6的案例中，LLama2-7B和LLama2-13B分别产生了7个和8个假阳性，而LLama2-70B产生了19个假阳性，是LLama2-13B的两倍多。未来的工作应该探讨微调LLama2模型是否可以减少假阳性和假阴性的数量。

表2: Llama2模型的真阳性结果。

表3: Llama2模型的平均性能。

图2：TRAM在使用我们在ATD数据集上提出的不同配置时的性能。

表2展示了每个模型检测到的真正例数量，表3总结了每种方法的总体精确率、召回率和F1分数。如表2和3所示，所有模型的表现都很差，在许多情况下仅检测到一小部分真正例。尽管LLama2 70B模型检测到的真正例最多，但由于LLama2 70B产生的假正例数量较多，LLama2 7B的总体性能略好。这种低性能突显了任务的复杂性以及对CTI提取专用方法的需求。我们的下一个研究问题旨在探索这个方向。

表 4：使用在 ATD 数据集上重新训练的 SciBERT 模型对所选技术进行分类的结果。

4.2 TRAM配置的比较

为了解决研究问题RQ2，我们评估了TRAM在不同配置和置信水平（25%和80%）下的表现。结果如图2所示，突出了配置更改的影响。我们可以观察到，首先使用GPT-3.5总结报告，然后使用SciBERT进行分类，其性能略优于SciBERT的默认设置。

为了解决TRAM中的类别不平衡和过拟合问题，我们使用重新平衡的数据集重新训练了SciBERT模型。如图2所示，与基线模型相比，这种方法使F1-score的中位数提高了约七个百分点。表4展示了使用性能最佳的重新训练的SciBERT模型对一些选定技术的分类结果。我们观察到，该模型在MITRE ATT&CK框架中最常见的50种技术中的许多技术上表现良好，F1-score高达0.92。

5 结论

本研究评估了最先进的网络威胁情报提取方法，强调了诸如类别不平衡、过拟合以及网络安全文本的复杂性等关键挑战。为了解决这些问题，我们提出了一种新颖的流程，该流程结合了用于报告总结的GPT-3.5和一个经过重新训练的SciBERT模型，以提高分类准确率，该模型使用由LLM增强的重新平衡的数据。与基线模型相比，这种方法使F1分数提高了七个百分点，并且对于几种攻击技术，F1分数达到了0.90以上。尽管取得了这些改进，但在对代表性不足的技术进行分类和减少误报方面仍然存在挑战。未来的工作应侧重于整合人机协作以提高提取准确率，并探索微调的LLM以进行更有效的CTI分析。这些贡献为更可靠的自动化CTI系统奠定了基础，以支持网络安全运营。

查看全文

http://www.dtcms.com/a/182322.html