当前位置：首页 > news >正文

加密网络流量分类

news 2025/9/18 7:40:34

文章目录

1、Revolutionizing Encrypted Traffic Classification with MH-Net: A Multi-View Heterogeneous Graph Model
- 摘要
- 引言
- 相关工作
- 方法
2、EAPT: An encrypted traffic classification model via adversarial pre-trained transformers
- 摘要
- 引言
- 相关工作
- 方法
3、A graph representation framework for encrypted network traffic classification
- 摘要
- 引言
- 方法

1、Revolutionizing Encrypted Traffic Classification with MH-Net: A Multi-View Heterogeneous Graph Model

革命性加密流量分类方法：MH-Net 多视角异构图模型

摘要

随着网络安全重要性的日益凸显，加密流量的分类问题已成为亟待解决的挑战。传统基于字节的流量分析方法受限于刚性的粒度划分，无法充分挖掘字节之间的多样化相关性。为克服这些局限，本文提出了一种新方法 MH-Net，通过多视角异构流量图对网络流量进行分类，从而刻画流量字节之间复杂的关系。MH-Net 的核心在于将不同数量的比特聚合为多种类型的流量单元，并据此构建具有多样信息粒度的多视角流量图。通过引入不同类型的字节相关性（如首部—载荷关系），MH-Net 进一步赋予流量图以异构性，从而显著提升模型性能。值得注意的是，本文还在多任务框架下引入对比学习，以增强流量单元表示的鲁棒性。我们在 ISCX 和 CIC-IoT 数据集上，分别进行了报文级与流级的流量分类实验，结果表明 MH-Net 相较于数十种最新方法，取得了整体最佳的性能表现。

引言

随着计算机网络技术的不断发展以及各类设备接入互联网，用户隐私愈发容易遭受恶意攻击。尽管虚拟专用网络（VPN）与洋葱路由（Tor）（Ramadhani 2018）等加密技术能够为用户提供保护（Sharma, Dangi, and Mishra 2021; Xiao et al. 2024），但它们也可能被攻击者利用来隐藏身份。传统的数据包检测（DPI）方法在加密流量面前逐渐失效（Papadogiannaki and Ioannidis 2021）。如何设计一种通用且有效的方法，从加密流量中识别攻击者的网络活动（如网页浏览或应用使用），仍然是一个巨大的挑战。近年来，许多方法被提出以增强加密流量分类的能力。其中，基于统计的方法（Taylor et al. 2016; Hayes and Danezis 2016; van Ede et al. 2020; Panchenko et al. 2016; Xu, Geng, and Jin 2022）通常依赖人工构造的流量统计特征，并利用传统的机器学习模型进行分类。然而，这类方法需要大量特征工程，且容易受到不稳定流的影响（Zhang et al. 2023）。随着表示学习的兴起（Le-Khac, Healy, and Smeaton 2020），部分方法也引入深度学习模型进行流量分类，如预训练语言模型（Lin et al. 2022; Meng et al. 2022）、神经网络（Liu et al. 2019; Zhang et al. 2023; Zhao et al. 2023）等。尽管这些方法取得了较好的性能，但未能充分揭示流量字节之间的细粒度相关性，原因主要体现在以下两个方面：

受限于字节粒度的刚性划分。现有方法通常将字节视为不可分割的单元，从而忽视了流量数据中多样化的信息粒度。例如，一个中文字符由两个字节表示，而一个英文字符只需一个字节。这表明流量数据普遍存在不同层次的粒度信息（不仅是字节，也可能是比特）。

缺乏对多种相关性类型的考虑。现有方法往往混合不同位置字节之间的相关性，而未能加以区分与利用。例如，首部与首部字节之间的相关性，与首部与载荷字节之间的相关性存在差异。

因此，如何揭示并利用流量字节间潜在的细粒度相关性以提升流量分类性能，是一个亟待解决的问题。

为应对上述挑战，本文提出了一种新模型 MH-Net，通过多视角异构流量图实现网络流量分类。具体而言，MH-Net 首先将不同数量的比特聚合为多种类型的流量单元（如 4 比特单元和 8 比特单元），以增强流量数据的信息粒度多样性。由于图在处理关系数据方面具有优势，MH-Net 进一步利用点互信息（PMI）将不同类型的流量单元序列转化为多视角流量图。在此基础上，考虑到流量单元序列不同部分的功能差异，MH-Net 引入三类单元相关性：首部—首部、首部—载荷、载荷—载荷，并设计了异构流量图编码器以实现多视角异构图表示学习。为增强流量单元表示的鲁棒性，MH-Net 还在流量图上采用了多任务对比学习。

在实验评估方面，本文在 ISCX 和 CIC-IoT 数据集上分别进行了报文级和流级的流量分类实验。实验结果表明，MH-Net 取得了具有竞争力的性能，并在所有最新方法中排名第一。进一步对流量单元的分析还揭示了不同粒度信息单元之间在互补性与干扰性之间的潜在权衡。

综上所述，本文的主要贡献如下：

我们提出了一种新模型 MH-Net，通过将不同数量的比特聚合为多种类型的流量单元，构建多视角流量图，从而丰富信息粒度的多样性并提升模型性能。

MH-Net 引入三类流量单元相关性以建模流量图的异质性，并采用异构图神经网络进行特征提取；此外，还通过多任务对比学习增强了流量单元表示的鲁棒性。

我们在 ISCX 与 CIC-IoT 数据集上分别进行了报文级和流级的流量分类实验，结果显示 MH-Net 相比数十种基线方法均取得了整体最佳表现。

方法

在这里插入图片描述

2、EAPT: An encrypted traffic classification model via adversarial pre-trained transformers

摘要

加密流量分类在网络流量管理与优化中发挥着关键作用，它能够帮助识别并区分不同类型的流量，从而提升网络服务的质量与效率。然而，随着流量加密和网络应用的不断演进，产生了大量多样化的加密流量，这对传统基于特征提取的方法在有效识别加密流量方面提出了严峻挑战。

本文提出了一种基于对抗式预训练 Transformer（EAPT）的加密流量分类模型。该模型利用 SentencePiece 对加密流量数据进行分词，有效解决了分词粒度过大的问题，使分词结果能够更加准确地反映加密流量的特征。在预训练阶段，EAPT 采用了解耦注意力机制，并引入了一种类似生成对抗网络的预训练任务——替换 BURST 检测任务。该方法不仅增强了模型对上下文信息的理解能力，还加速了预训练过程。此外，该方法有效减少了模型参数量，从而提升了模型的泛化能力。

实验结果表明，EAPT 能够从小规模的未标注数据集中高效学习流量特征，并在多个数据集上表现出色，在保持较少模型参数的情况下依然取得了优异的性能。

引言

随着互联网的快速发展与广泛应用，网络流量的持续增长已成为不可避免的趋势 [1]。当前网络管理与优化中的关键挑战之一，是如何有效地分析与利用这些流量。随着隐私保护需求的不断提升，协议与应用在通信中越来越多地采用加密技术。因此，通信网络中加密流量的比例显著增加。然而，虽然加密增强了保密性，但也为网络监管带来了困难，因为它使攻击行为的捕获更加复杂 [2]。

在网络流量快速增长的背景下，如何高效、准确地对加密网络流量进行分类是一个亟待解决的难题 [3]。目前，通信网络中已应用多种加密机制 [4]，如 VPN、VoIP、P2P、SSL 等。这些加密算法增加了流量分类的难度，对网络流量识别提出了严峻挑战 [5]。

网络流量识别 [6] 是一种基于数据包内容或行为特征来判定网络流量所属协议或应用的技术。传统的流量识别方法主要分为三类：基于端口映射的方法 [7]、基于载荷分析的方法 [8] 和基于行为的方法 [9]。端口映射方法实现简单，通过比较数据包端口字段与指定端口号来识别流量。然而，该方法存在局限性，例如端口号与应用不一致、动态端口的使用，以及部分应用隐藏或滥用端口号，导致识别效果不佳。深度包检测（Deep Packet Inspection, DPI）[10] 是基于载荷分析的代表性方法，其通过载荷字段与规则库的匹配来实现流量识别。虽然该方法具有较高准确率，但需要不断更新规则库，造成较大的系统开销，同时还可能引发用户隐私与数据安全问题。基于行为的方法则通过流量的统计特征进行分类识别，但该方法消耗大量系统资源与时间，实时性能较差 [11]。

神经网络具有强大的自学习能力，能够从原始数据中学习高层特征表示。同时，网络需要处理大量流量并不断产生新流量，因此数据驱动的深度学习方法非常适合研究网络流量问题 [12]。因此，基于深度学习的加密流量识别已成为一个研究热点。通过利用大量加密流量数据训练模型，深度神经网络能够自动学习流量的特征与行为模式，从而在实时场景中实现对加密流量的准确识别 [13]。

然而，基于深度学习的加密流量识别方法仍存在局限性。由于加密协议的复杂性与隐私性，模型在未经过预处理时难以从原始流量中学习到有效特征 [14]。此外，由于加密协议不断更新与演进，模型的识别能力往往存在滞后，难以高效应对动态变化的加密流量识别任务。

方法概述

为解决标注数据不足与模型滞后的问题，本文提出了一种基于对抗式预训练 Transformer（EAPT）的加密流量分类模型。该模型能够从未标注的加密流量中学习特征，并执行流量分类任务。

具体而言，EAPT 包含三个阶段：

数据处理阶段
对加密流量进行预处理与分词。

预训练阶段
使用解耦注意力机制进行编码，并提出一种新的加密流量预训练任务。该任务由两部分组成：

BURST 生成模型（BGM）：学习 BURST 内数据报之间的关系，并生成伪造数据报进行替换；

BURST 判别模型（BDM）：预测输入中的每个数据报是否已被生成模型的样本替换。

微调阶段
利用小规模数据集对参数进行微调，以适应不同的加密流量分类任务。

主要贡献

本文的主要贡献总结如下：

基于 SentencePiece (SP) 的加密流量分词方法
我们提出了一种基于 SP 的加密流量数据分词方法。通过 SP 对加密流量进行分词，有效解决了分词粒度过大的问题，使分词结果能够更好地反映加密流量特征，从而帮助模型更好地理解加密流量的上下文关系。

新的预训练任务设计
在预训练阶段，我们采用解耦注意力机制进行编码，以缓解长距离依赖问题，并提出了一种更高效的加密流量预训练任务——替换 BURST 检测任务。该任务由两个类似生成对抗网络的 Transformer 编码器组成，加速了预训练过程，同时减少了模型参数数量并提升了模型的泛化能力。

实验验证
我们在四个数据集上开展了加密流量分类实验，并与其他先进模型进行了比较。实验结果表明，本模型在准确率、召回率和 F1-score 上均取得了优异表现。与已有方法相比，本模型所需的预训练数据集规模减少 86.7%，模型参数量减少 80%，预训练模型体积减少 83.28%。

论文结构

本文余下部分组织如下：第二部分讨论相关工作；第三部分详细介绍所提出的 EAPT 模型；第四部分展示在不同数据集上的实验结果，并与其他方法进行对比与分析；最后，在第五部分给出结论与未来工作。

方法

在这里插入图片描述

3、A graph representation framework for encrypted network traffic classification

基于图表示的加密网络流量分类框架

摘要

网络流量分类（Network Traffic Classification, NTC）在保障互联网安全方面至关重要，但加密技术对该任务提出了重大挑战。尽管机器学习（Machine Learning, ML）和深度学习（Deep Learning, DL）方法已展现出一定潜力，但其普遍存在表示能力有限、泛化效果不足以及性能不稳定等问题。这些问题在面对高级混淆、网络安全与隐私保护技术时更加突出，表明亟需提升模型的鲁棒性。

为解决这些问题，我们的研究重点放在 NTC 的特征提取与表示上，利用图结构的强大表达能力来刻画不同粒度层次的网络流量。通过将网络流量建模为互联图，我们能够同时分析流级与包级数据。我们提出的基于图的加密 NTC 表示方法，即使在加密与混淆的情况下，也能有效保留关键信息。

此外，我们通过使用余弦相似度来挖掘加密网络流与数据包之间的相关性，从而增强方法的鲁棒性，并进一步定义抽象实体之间的关系。这一图结构使得能够构建结构化嵌入，以在不同加密层次下准确刻画网络流量。

我们的端到端方法在传统 NTC 方法表现欠佳的场景（如使用匿名化机制进一步混淆流量的 Tor 分类任务）中展现了显著优势。尤其是在包级分类任务中，我们的方法始终优于现有方法，分类准确率超过 96%。

引言

随着网络攻击的激增，网络流量分类（Network Traffic Classification, NTC）引起了越来越多的关注，其任务是将网络流量划分为不同类别。加密的出现使这一任务变得更加复杂，从而推动了深度学习（Deep Learning, DL）在分析加密流量模式、特征和内容方面的应用。在 DL 出现之前，NTC 方法涵盖了从基于端口的分类到统计技术（Lin et al., 2009; Shapira and Shavitt, 2019; Okonkwo et al., 2023; Wang and Thing, 2023）。近期和早期的一些研究（Okonkwo et al., 2022; Miller et al., 2014; Rahman et al., 2019）由于加密网络流量缺乏上下文特性，而利用统计特征。这引发了一波基于机器学习（Machine Learning, ML）的方法，并逐渐发展为深度学习方法（Taylor et al., 2016; Hayes and Danezis, 2016; Van Ede et al., 2020; Zaki et al., 2022; Shapira and Shavitt, 2019; Okonkwo et al., 2023）。

早期的统计方法依赖于手工构造的基于流的特征，但由于长流和短流之间的差异，在现实场景中分类面临挑战。最近的分类策略还利用了网络元数据，例如数据包长度和到达间隔时间。理解网络元数据与实际加密流量之间的差异，对于实现有效的 NTC 至关重要。网络流量分类（NTC）通常被视为 ML 和 DL 领域中的分类问题（见 Fig. 1）。有效的 NTC 需要为 ML/DL 分析提供结构化的数据表示。传统方法（Wang et al., 2017b,c; Shapira and Shavitt, 2019; Okonkwo et al., 2023）曾将网络流量转化为灰度或彩色图像，这一思路受到了 DL 在图像分类中成功经验的启发。虽然这些方法在结果上表现良好，但往往捕捉到的是网络特征而非应用行为，导致泛化性较差。

鉴于网络流量的时间序列特性，时序特征对分类同样重要。循环神经网络（RNN），尤其是长短期记忆网络（LSTM）（Lu et al., 2021; Yao et al., 2019），已被用于提取这些特征，其灵感来自自然语言处理（NLP）的进展。这些方法能够分析原始流量，简化特征选择，并展现出有前景的结果。结合 DL 方法（Lu et al., 2021; Wang et al., 2017a; Aceto et al., 2018）进一步提升了分类器的性能。然而，加密流量的非结构化特性仍然对 NTC 的 DL 分析提出挑战。基于 CNN 的方法（Wang et al., 2017b,c; Shapira and Shavitt, 2019; Okonkwo et al., 2023）往往涉及人工特征选择和提取，强调网络行为而非应用行为，从而导致泛化性不足。LSTM 方法对所有流量进行相同分析，在增强加密的情况下表现不佳。结合 DL 方法虽然能提升性能，但同时增加了网络复杂性和过拟合风险。这个关键挑战凸显了需要新的方法来表示加密流量。因此，我们提出了一个研究问题：如何表示加密网络流量，以提高检测、识别和分类的准确性？回答这一问题对于推动 NTC 领域的发展至关重要，特别是在加密技术不断演进的背景下。

近期的研究（Zhang et al., 2023; Huoh et al., 2021; Ma et al., 2023）证明了在分类任务中同时处理载荷和首部数据的有效性。尽管加密载荷本质上缺乏模式，但这些研究仍然取得了显著的性能表现。受此启发，我们在实验中引入了载荷数据，以评估其对分类准确性的潜在贡献。这一方法旨在确定即便在加密带来挑战的情况下，载荷数据的引入是否确实能够提升分类性能。

几何深度学习（Geometric Deep Learning, GDL）（Bronstein et al., 2017）已被有效应用于非结构化数据，能够实现节点、链接或整个图的预测。通过分析图的组成部分及其拓扑结构，图神经网络（GNNs）可以处理复杂的分类任务。将 GNN 应用于网络流量分类（NTC）已展现出可喜的进展（Okonkwo et al., 2023; Huoh et al., 2021; Pang et al., 2021; Zheng et al., 2022; Zhang et al., 2023; Cai et al., 2021）。

尽管已有进展，仍存在显著挑战。正如独特特征对图像识别至关重要一样，图在深度学习计算前必须具备良好的表达能力。增强这种能力需要对图的结构属性进行合理设计，特别是特征提取与表示方法的改进。Huoh et al. (2021) 和 Okonkwo et al. (2023) 的研究将 GNN 应用于 NTC，但未能充分利用图的表达能力，生成的图过于简单，拓扑差异极小（Huoh et al., 2021; Okonkwo et al., 2023），结果往往呈现为缺乏结构区分的路径图。这种方法不足以应对加密 NTC 中细粒度的多类别分类任务。

要推动该领域的发展，必须开发出能够增强图表示表达能力的方法，使其能够更有效地进行深度学习计算，并提升加密 NTC 的分类准确性。这要求在特征提取与图生成方法上进行创新，以弥补当前方法的不足，充分发挥 GNN 在 NTC 中的潜力。

本文方法与贡献

本文针对加密 NTC 的表示问题提出了一种基于图的分析方法，在流级与包级层面上构建互联图。我们引入了两类边来丰富图结构：

时间顺序边：用于保留时间序列数据；

相似性边：用于促进相似节点间的通信，并增强拓扑区分度。

我们使用余弦相似度来建立二级节点关系，当相似度超过阈值时建立边，从而促进相似节点之间的交互，生成结构化嵌入，这对于图定义至关重要。

我们在四个公开数据集上，利用不同的 GNN 变体对方法进行了评估，重点关注能够保留高阶信息的模型，以实现有效的图分类。

本文的贡献如下：

我们提出了一种新方法，将网络流量表示为图，分别在流级与包级上通过分析数据包序列与字节流来构建互联图。

我们设计了一种高效的基于 GNN 的网络图分类器。通过测试多种 GNN 架构，重点关注整体图分类，建立了基线模型，并进行定制化改进。实验表明，该架构在流级与包级分类中均表现优异。

我们对方法进行了全面评估，开展了与相关工作的对比分析，并提供了实验解释。结果表明，我们所提出的网络图结构通过保留关键信息，有效提升了加密网络流量分类的性能。

论文结构