加密网络流量分类
文章目录
- 1、Revolutionizing Encrypted Traffic Classification with MH-Net: A Multi-View Heterogeneous Graph Model
- 摘要
- 引言
- 相关工作
- 方法
- 2、EAPT: An encrypted traffic classification model via adversarial pre-trained transformers
- 摘要
- 引言
- 相关工作
- 方法
- 3、A graph representation framework for encrypted network traffic classification
- 摘要
- 引言
- 方法
1、Revolutionizing Encrypted Traffic Classification with MH-Net: A Multi-View Heterogeneous Graph Model
革命性加密流量分类方法:MH-Net 多视角异构图模型
摘要
随着网络安全重要性的日益凸显,加密流量的分类问题已成为亟待解决的挑战。传统基于字节的流量分析方法受限于刚性的粒度划分,无法充分挖掘字节之间的多样化相关性。为克服这些局限,本文提出了一种新方法 MH-Net,通过多视角异构流量图对网络流量进行分类,从而刻画流量字节之间复杂的关系。MH-Net 的核心在于将不同数量的比特聚合为多种类型的流量单元,并据此构建具有多样信息粒度的多视角流量图。通过引入不同类型的字节相关性(如首部—载荷关系),MH-Net 进一步赋予流量图以异构性,从而显著提升模型性能。值得注意的是,本文还在多任务框架下引入对比学习,以增强流量单元表示的鲁棒性。我们在 ISCX 和 CIC-IoT 数据集上,分别进行了报文级与流级的流量分类实验,结果表明 MH-Net 相较于数十种最新方法,取得了整体最佳的性能表现。
引言
随着计算机网络技术的不断发展以及各类设备接入互联网,用户隐私愈发容易遭受恶意攻击。尽管虚拟专用网络(VPN)与洋葱路由(Tor)(Ramadhani 2018)等加密技术能够为用户提供保护(Sharma, Dangi, and Mishra 2021; Xiao et al. 2024),但它们也可能被攻击者利用来隐藏身份。传统的数据包检测(DPI)方法在加密流量面前逐渐失效(Papadogiannaki and Ioannidis 2021)。如何设计一种通用且有效的方法,从加密流量中识别攻击者的网络活动(如网页浏览或应用使用),仍然是一个巨大的挑战。近年来,许多方法被提出以增强加密流量分类的能力。其中,基于统计的方法(Taylor et al. 2016; Hayes and Danezis 2016; van Ede et al. 2020; Panchenko et al. 2016; Xu, Geng, and Jin 2022)通常依赖人工构造的流量统计特征,并利用传统的机器学习模型进行分类。然而,这类方法需要大量特征工程,且容易受到不稳定流的影响(Zhang et al. 2023)。随着表示学习的兴起(Le-Khac, Healy, and Smeaton 2020),部分方法也引入深度学习模型进行流量分类,如预训练语言模型(Lin et al. 2022; Meng et al. 2022)、神经网络(Liu et al. 2019; Zhang et al. 2023; Zhao et al. 2023)等。尽管这些方法取得了较好的性能,但未能充分揭示流量字节之间的细粒度相关性,原因主要体现在以下两个方面:
受限于字节粒度的刚性划分。现有方法通常将字节视为不可分割的单元,从而忽视了流量数据中多样化的信息粒度。例如,一个中文字符由两个字节表示,而一个英文字符只需一个字节。这表明流量数据普遍存在不同层次的粒度信息(不仅是字节,也可能是比特)。
缺乏对多种相关性类型的考虑。现有方法往往混合不同位置字节之间的相关性,而未能加以区分与利用。例如,首部与首部字节之间的相关性,与首部与载荷字节之间的相关性存在差异。
因此,如何揭示并利用流量字节间潜在的细粒度相关性以提升流量分类性能,是一个亟待解决的问题。
为应对上述挑战,本文提出了一种新模型 MH-Net,通过多视角异构流量图实现网络流量分类。具体而言,MH-Net 首先将不同数量的比特聚合为多种类型的流量单元(如 4 比特单元和 8 比特单元),以增强流量数据的信息粒度多样性。由于图在处理关系数据方面具有优势,MH-Net 进一步利用点互信息(PMI)将不同类型的流量单元序列转化为多视角流量图。在此基础上,考虑到流量单元序列不同部分的功能差异,MH-Net 引入三类单元相关性:首部—首部、首部—载荷、载荷—载荷,并设计了异构流量图编码器以实现多视角异构图表示学习。为增强流量单元表示的鲁棒性,MH-Net 还在流量图上采用了多任务对比学习。
在实验评估方面,本文在 ISCX 和 CIC-IoT 数据集上分别进行了报文级和流级的流量分类实验。实验结果表明,MH-Net 取得了具有竞争力的性能,并在所有最新方法中排名第一。进一步对流量单元的分析还揭示了不同粒度信息单元之间在互补性与干扰性之间的潜在权衡。
综上所述,本文的主要贡献如下:
我们提出了一种新模型 MH-Net,通过将不同数量的比特聚合为多种类型的流量单元,构建多视角流量图,从而丰富信息粒度的多样性并提升模型性能。
MH-Net 引入三类流量单元相关性以建模流量图的异质性,并采用异构图神经网络进行特征提取;此外,还通过多任务对比学习增强了流量单元表示的鲁棒性。
我们在 ISCX 与 CIC-IoT 数据集上分别进行了报文级和流级的流量分类实验,结果显示 MH-Net 相比数十种基线方法均取得了整体最佳表现。
相关工作
流级流量分类方法
流级流量分类方法旨在对流量流进行分类,大致可以分为三类。
基于统计特征的方法
许多方法利用统计特征来表示数据包的属性,并采用传统机器学习模型进行分类。AppScanner (Taylor et al. 2016) 基于双向流特征从流量中提取特征;CUMUL (Panchenko et al. 2016) 使用累积包长度作为特征;ETC-PS (Xu, Geng, and Jin 2022) 借助路径签名理论强化了包长度序列;Conti 等人 (Conti et al. 2015) 则利用层次聚类进行特征提取。
基于指纹匹配的方法
指纹描述了流量的特征,同样可用于流量识别。FlowPrint (van Ede et al. 2020) 通过构建目标 IP 之间的相关性图生成流量指纹,并计算活动值;K-FP (Hayes and Danezis 2016) 利用随机森林生成指纹,并通过 k-近邻匹配识别未知样本。
基于深度学习的方法
深度学习展现出强大的学习能力,许多流量分类方法均基于此。RBRN (Zheng et al. 2020)、DF (Sirinam et al. 2018) 和 FS-Net (Liu et al. 2019) 都使用统计特征序列(如包长度序列)作为输入,结合卷积神经网络(CNN)或循环神经网络(RNN)进行分类。此外,也有部分方法直接使用原始字节作为特征:
EBSNN (Xiao et al. 2022) 将 RNN 与注意力机制结合,用于处理首部与载荷字节片段。
ET-BERT (Lin et al. 2022) 在大规模流量数据集上进行预训练任务,学习强大的原始字节表示,但其训练代价高昂。
图神经网络(GNN)也被用于流量分类任务:GraphDApp (Shen et al. 2021) 基于流量突发构建流量交互图,并利用 GNN 进行表示学习;TFEGNN (Zhang et al. 2023) 借助点互信息 (Yao, Mao, and Luo 2019) 构建字节级流量图,并设计流量图编码器进行特征提取;YaTC (Zhao et al. 2023) 基于掩码自编码器的流量 Transformer,能够高效提取特征并提升性能。
包级流量分类方法
与此相对,包级流量分类方法旨在识别每个网络数据包所属的不同类别。
基于统计与机器学习的方法
Securitas (Yun et al. 2015) 对原始字节生成 n-gram,并利用潜在狄利克雷分配(LDA)形成协议关键字作为特征,再结合 SVM、C4.5 决策树或贝叶斯网络进行分类。
基于深度学习的方法
2D-CNN (Lim et al. 2019) 与 3D-CNN (Zhang et al. 2020) 将数据包字节视为像素值,并转化为图像输入 CNN 进行分类。
DP (Lotfollahi et al. 2020) 利用 CNN 与自编码器提取字节特征。
BLJAN (Mao et al. 2021) 探索数据包字节与标签之间的相关性,并将其编码至联合嵌入空间进行分类。
EBSNN (Xiao et al. 2022) 与 ET-BERT (Lin et al. 2022) 也能进行包级分类,但它们需要独立的训练或微调来完成流级与包级任务,计算开销较大。
PacRep (Meng et al. 2022) 利用三元组损失 (Schroff, Kalenichenko, and Philbin 2015),在无需数据增强的情况下联合优化多个包级任务,从而学习到更优的数据包表示。
总结
综上,现有方法在进行流量分类任务时,并未充分考虑原始字节中蕴含的丰富相关性信息,因此仍然面临性能瓶颈。
方法
2、EAPT: An encrypted traffic classification model via adversarial pre-trained transformers
摘要
加密流量分类在网络流量管理与优化中发挥着关键作用,它能够帮助识别并区分不同类型的流量,从而提升网络服务的质量与效率。然而,随着流量加密和网络应用的不断演进,产生了大量多样化的加密流量,这对传统基于特征提取的方法在有效识别加密流量方面提出了严峻挑战。
本文提出了一种基于 对抗式预训练 Transformer(EAPT) 的加密流量分类模型。该模型利用 SentencePiece 对加密流量数据进行分词,有效解决了分词粒度过大的问题,使分词结果能够更加准确地反映加密流量的特征。在预训练阶段,EAPT 采用了解耦注意力机制,并引入了一种类似生成对抗网络的预训练任务——替换 BURST 检测任务。该方法不仅增强了模型对上下文信息的理解能力,还加速了预训练过程。此外,该方法有效减少了模型参数量,从而提升了模型的泛化能力。
实验结果表明,EAPT 能够从小规模的未标注数据集中高效学习流量特征,并在多个数据集上表现出色,在保持较少模型参数的情况下依然取得了优异的性能。
引言
随着互联网的快速发展与广泛应用,网络流量的持续增长已成为不可避免的趋势 [1]。当前网络管理与优化中的关键挑战之一,是如何有效地分析与利用这些流量。随着隐私保护需求的不断提升,协议与应用在通信中越来越多地采用加密技术。因此,通信网络中加密流量的比例显著增加。然而,虽然加密增强了保密性,但也为网络监管带来了困难,因为它使攻击行为的捕获更加复杂 [2]。
在网络流量快速增长的背景下,如何高效、准确地对加密网络流量进行分类是一个亟待解决的难题 [3]。目前,通信网络中已应用多种加密机制 [4],如 VPN、VoIP、P2P、SSL 等。这些加密算法增加了流量分类的难度,对网络流量识别提出了严峻挑战 [5]。
网络流量识别 [6] 是一种基于数据包内容或行为特征来判定网络流量所属协议或应用的技术。传统的流量识别方法主要分为三类:基于端口映射的方法 [7]、基于载荷分析的方法 [8] 和基于行为的方法 [9]。端口映射方法实现简单,通过比较数据包端口字段与指定端口号来识别流量。然而,该方法存在局限性,例如端口号与应用不一致、动态端口的使用,以及部分应用隐藏或滥用端口号,导致识别效果不佳。深度包检测(Deep Packet Inspection, DPI)[10] 是基于载荷分析的代表性方法,其通过载荷字段与规则库的匹配来实现流量识别。虽然该方法具有较高准确率,但需要不断更新规则库,造成较大的系统开销,同时还可能引发用户隐私与数据安全问题。基于行为的方法则通过流量的统计特征进行分类识别,但该方法消耗大量系统资源与时间,实时性能较差 [11]。
神经网络具有强大的自学习能力,能够从原始数据中学习高层特征表示。同时,网络需要处理大量流量并不断产生新流量,因此数据驱动的深度学习方法非常适合研究网络流量问题 [12]。因此,基于深度学习的加密流量识别已成为一个研究热点。通过利用大量加密流量数据训练模型,深度神经网络能够自动学习流量的特征与行为模式,从而在实时场景中实现对加密流量的准确识别 [13]。
然而,基于深度学习的加密流量识别方法仍存在局限性。由于加密协议的复杂性与隐私性,模型在未经过预处理时难以从原始流量中学习到有效特征 [14]。此外,由于加密协议不断更新与演进,模型的识别能力往往存在滞后,难以高效应对动态变化的加密流量识别任务。
方法概述
为解决标注数据不足与模型滞后的问题,本文提出了一种基于 对抗式预训练 Transformer(EAPT) 的加密流量分类模型。该模型能够从未标注的加密流量中学习特征,并执行流量分类任务。
具体而言,EAPT 包含三个阶段:
数据处理阶段
对加密流量进行预处理与分词。
预训练阶段
使用解耦注意力机制进行编码,并提出一种新的加密流量预训练任务。该任务由两部分组成:
BURST 生成模型(BGM):学习 BURST 内数据报之间的关系,并生成伪造数据报进行替换;
BURST 判别模型(BDM):预测输入中的每个数据报是否已被生成模型的样本替换。
微调阶段
利用小规模数据集对参数进行微调,以适应不同的加密流量分类任务。
主要贡献
本文的主要贡献总结如下:
基于 SentencePiece (SP) 的加密流量分词方法
我们提出了一种基于 SP 的加密流量数据分词方法。通过 SP 对加密流量进行分词,有效解决了分词粒度过大的问题,使分词结果能够更好地反映加密流量特征,从而帮助模型更好地理解加密流量的上下文关系。
新的预训练任务设计
在预训练阶段,我们采用解耦注意力机制进行编码,以缓解长距离依赖问题,并提出了一种更高效的加密流量预训练任务——替换 BURST 检测任务。该任务由两个类似生成对抗网络的 Transformer 编码器组成,加速了预训练过程,同时减少了模型参数数量并提升了模型的泛化能力。
实验验证
我们在四个数据集上开展了加密流量分类实验,并与其他先进模型进行了比较。实验结果表明,本模型在准确率、召回率和 F1-score 上均取得了优异表现。与已有方法相比,本模型所需的预训练数据集规模减少 86.7%,模型参数量减少 80%,预训练模型体积减少 83.28%。
论文结构
本文余下部分组织如下:第二部分讨论相关工作;第三部分详细介绍所提出的 EAPT 模型;第四部分展示在不同数据集上的实验结果,并与其他方法进行对比与分析;最后,在第五部分给出结论与未来工作。
相关工作
2.1 基于机器学习的加密流量分类
基于机器学习的加密流量分类方法依赖人工设计的特征进行分类 [15],通常利用流量的统计信息。这类特征往往能够在流量分类任务中取得较高的识别率。
Kotpalliwar 等人 [16] 使用支持向量机(SVM)在 “10% KDD Cup 99” 数据集上进行多类别流量分类,验证准确率和分类准确率分别达到 89.95% 和 99.99%,但该研究未对召回率进行评估。Chandrasekhar 等人 [17] 将模糊 C-均值聚类、人工神经网络(ANN)和 SVM 方法结合,在多个数据集上取得了良好结果,但其方法在实际网络中的异常检测效果不佳。Lashkari 等人 [18] 使用人工设计的时间相关特征和随机森林(RF)算法在 Tor-nonTor 数据上进行了实验,尽管具备较高的实时性,但准确率并不理想。
Li 等人 [19] 提出了一种用户行为分类方法 FOAP,通过设计流间结构相似性的概念来过滤与目标应用无关的流量片段,进而识别用户在特定 UI 组件上的操作。FOAP 在应用识别和用户行为识别上的 F1 值分别达到 0.911 和 0.885。Fu 等人 [20] 提出了一种基于实时无监督机器学习的恶意流量检测系统,该方法利用由流量模式构建的紧凑内存图来识别未知的加密恶意流量模式,从而实现了较高的准确率。
近年来,机器学习方法在加密流量分类和异常检测方面取得了显著进展,克服了传统方法的一些局限性。然而,这类方法的性能高度依赖于特征设计和分类算法的选择。人工设计特征是一项繁琐且耗时的工作 [21]。此外,随着互联网的普及和网络流量复杂性的增加,异常流量的特征呈现多样化与动态变化。当出现新的流量类型时,专家需要重新设计特征工程,显著限制了此类方法的泛化能力 [22]。
2.2 基于深度学习的加密流量分类
基于深度学习的加密流量分类方法通过训练实现特征自动提取 [23],从而避免了专家进行人工特征设计的需求。该方法能够从数据中学习有效特征,从而取得更优的分类性能 [24]。常见的深度学习方法包括 CNN、LSTM 和 RNN。
Yuan 等人 [25] 使用由 CNN、RNN 和全连接层组成的神经网络模型,其中 RNN 能够学习较长的历史特征,有效降低误报率,并在泛化能力上优于随机森林。Cui 等人 [26] 提出了一种基于会话数据包的胶囊网络(CapsNet)加密流量分类方法,CapsNet 能够学习输入数据中的复杂空间关系,并在 ISCX VPN-nonVPN 数据集上验证了其在加密流量分类中的高准确性。
Shapira 等人 [27] 提出了 FlowPic 方法,将基础流量数据转化为直观的图像,再利用 CNN 等成熟的图像分类深度学习技术识别流量类别。该方法在多个数据集上均展现了良好性能。Sirinam 等人 [28] 提出了基于 CNN 的新型网站指纹识别方法 Deep Fingerprinting (DF),能够从加密网络流量中识别用户访问的网站。实验表明,DF 在未防御的匿名网络(Tor)流量上的识别准确率达到 98.3%,并能够有效识别经过防御的 Tor 流量。
Liu 等人 [29] 提出了一种结合机器学习算法与 RNN 的方法,称为 Flow Sequence Network (FS-Net),能够从原始流量中学习具有代表性的特征,并在统一框架下完成分类。在包含 18 个应用的真实数据集上,FS-Net 的召回率达到 99.14%,误报率仅为 0.05%。Shen 等人 [30] 在 2021 年提出了一种基于图神经网络(GNN)的去中心化应用识别方法 GraphDApp,该方法将客户端与服务器之间交互生成的数据包转化为图形式,并使用基于 GNN 的分类器进行检测,在分类准确率和训练时间方面均表现良好。
此外,近年来出现了将预训练模型迁移至加密流量分类任务的趋势 [31,32]。He 等人 [33] 首次提出在加密流量分类中使用预训练模型,并引入 PERT 模型,在 ISCX-VPN-Service 数据集上的 F1-score 达到 93.23%。Lin 等人 [14] 进一步提出了 ET-BERT 预训练模型,在多个数据集上均取得了良好效果。
目前,基于深度学习的加密流量分类任务已经取得了令人鼓舞的成果。然而,大多数神经网络在性能表现上仍依赖大量标注数据。在网络流量场景下,正常流量与异常流量之间存在不平衡 [34]。同时,随着网络的不断演进,新流量类型不断涌现,获取高质量的大规模标注数据变得困难 [35]。预训练模型的出现 [36] 在一定程度上缓解了这一问题,但现有的预训练方法仍需要大量训练数据,并伴随高昂的训练成本 [37]。
方法
3、A graph representation framework for encrypted network traffic classification
基于图表示的加密网络流量分类框架
摘要
网络流量分类(Network Traffic Classification, NTC)在保障互联网安全方面至关重要,但加密技术对该任务提出了重大挑战。尽管机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL)方法已展现出一定潜力,但其普遍存在表示能力有限、泛化效果不足以及性能不稳定等问题。这些问题在面对高级混淆、网络安全与隐私保护技术时更加突出,表明亟需提升模型的鲁棒性。
为解决这些问题,我们的研究重点放在 NTC 的特征提取与表示上,利用图结构的强大表达能力来刻画不同粒度层次的网络流量。通过将网络流量建模为互联图,我们能够同时分析流级与包级数据。我们提出的基于图的加密 NTC 表示方法,即使在加密与混淆的情况下,也能有效保留关键信息。
此外,我们通过使用余弦相似度来挖掘加密网络流与数据包之间的相关性,从而增强方法的鲁棒性,并进一步定义抽象实体之间的关系。这一图结构使得能够构建结构化嵌入,以在不同加密层次下准确刻画网络流量。
我们的端到端方法在传统 NTC 方法表现欠佳的场景(如使用匿名化机制进一步混淆流量的 Tor 分类任务)中展现了显著优势。尤其是在包级分类任务中,我们的方法始终优于现有方法,分类准确率超过 96%。
引言
随着网络攻击的激增,网络流量分类(Network Traffic Classification, NTC)引起了越来越多的关注,其任务是将网络流量划分为不同类别。加密的出现使这一任务变得更加复杂,从而推动了深度学习(Deep Learning, DL)在分析加密流量模式、特征和内容方面的应用。在 DL 出现之前,NTC 方法涵盖了从基于端口的分类到统计技术(Lin et al., 2009; Shapira and Shavitt, 2019; Okonkwo et al., 2023; Wang and Thing, 2023)。近期和早期的一些研究(Okonkwo et al., 2022; Miller et al., 2014; Rahman et al., 2019)由于加密网络流量缺乏上下文特性,而利用统计特征。这引发了一波基于机器学习(Machine Learning, ML)的方法,并逐渐发展为深度学习方法(Taylor et al., 2016; Hayes and Danezis, 2016; Van Ede et al., 2020; Zaki et al., 2022; Shapira and Shavitt, 2019; Okonkwo et al., 2023)。
早期的统计方法依赖于手工构造的基于流的特征,但由于长流和短流之间的差异,在现实场景中分类面临挑战。最近的分类策略还利用了网络元数据,例如数据包长度和到达间隔时间。理解网络元数据与实际加密流量之间的差异,对于实现有效的 NTC 至关重要。网络流量分类(NTC)通常被视为 ML 和 DL 领域中的分类问题(见 Fig. 1)。有效的 NTC 需要为 ML/DL 分析提供结构化的数据表示。传统方法(Wang et al., 2017b,c; Shapira and Shavitt, 2019; Okonkwo et al., 2023)曾将网络流量转化为灰度或彩色图像,这一思路受到了 DL 在图像分类中成功经验的启发。虽然这些方法在结果上表现良好,但往往捕捉到的是网络特征而非应用行为,导致泛化性较差。
鉴于网络流量的时间序列特性,时序特征对分类同样重要。循环神经网络(RNN),尤其是长短期记忆网络(LSTM)(Lu et al., 2021; Yao et al., 2019),已被用于提取这些特征,其灵感来自自然语言处理(NLP)的进展。这些方法能够分析原始流量,简化特征选择,并展现出有前景的结果。结合 DL 方法(Lu et al., 2021; Wang et al., 2017a; Aceto et al., 2018)进一步提升了分类器的性能。然而,加密流量的非结构化特性仍然对 NTC 的 DL 分析提出挑战。基于 CNN 的方法(Wang et al., 2017b,c; Shapira and Shavitt, 2019; Okonkwo et al., 2023)往往涉及人工特征选择和提取,强调网络行为而非应用行为,从而导致泛化性不足。LSTM 方法对所有流量进行相同分析,在增强加密的情况下表现不佳。结合 DL 方法虽然能提升性能,但同时增加了网络复杂性和过拟合风险。这个关键挑战凸显了需要新的方法来表示加密流量。因此,我们提出了一个研究问题:如何表示加密网络流量,以提高检测、识别和分类的准确性? 回答这一问题对于推动 NTC 领域的发展至关重要,特别是在加密技术不断演进的背景下。
近期的研究(Zhang et al., 2023; Huoh et al., 2021; Ma et al., 2023)证明了在分类任务中同时处理载荷和首部数据的有效性。尽管加密载荷本质上缺乏模式,但这些研究仍然取得了显著的性能表现。受此启发,我们在实验中引入了载荷数据,以评估其对分类准确性的潜在贡献。这一方法旨在确定即便在加密带来挑战的情况下,载荷数据的引入是否确实能够提升分类性能。
几何深度学习(Geometric Deep Learning, GDL)(Bronstein et al., 2017)已被有效应用于非结构化数据,能够实现节点、链接或整个图的预测。通过分析图的组成部分及其拓扑结构,图神经网络(GNNs)可以处理复杂的分类任务。将 GNN 应用于网络流量分类(NTC)已展现出可喜的进展(Okonkwo et al., 2023; Huoh et al., 2021; Pang et al., 2021; Zheng et al., 2022; Zhang et al., 2023; Cai et al., 2021)。
尽管已有进展,仍存在显著挑战。正如独特特征对图像识别至关重要一样,图在深度学习计算前必须具备良好的表达能力。增强这种能力需要对图的结构属性进行合理设计,特别是特征提取与表示方法的改进。Huoh et al. (2021) 和 Okonkwo et al. (2023) 的研究将 GNN 应用于 NTC,但未能充分利用图的表达能力,生成的图过于简单,拓扑差异极小(Huoh et al., 2021; Okonkwo et al., 2023),结果往往呈现为缺乏结构区分的路径图。这种方法不足以应对加密 NTC 中细粒度的多类别分类任务。
要推动该领域的发展,必须开发出能够增强图表示表达能力的方法,使其能够更有效地进行深度学习计算,并提升加密 NTC 的分类准确性。这要求在特征提取与图生成方法上进行创新,以弥补当前方法的不足,充分发挥 GNN 在 NTC 中的潜力。
本文方法与贡献
本文针对加密 NTC 的表示问题提出了一种基于图的分析方法,在流级与包级层面上构建互联图。我们引入了两类边来丰富图结构:
时间顺序边:用于保留时间序列数据;
相似性边:用于促进相似节点间的通信,并增强拓扑区分度。
我们使用余弦相似度来建立二级节点关系,当相似度超过阈值时建立边,从而促进相似节点之间的交互,生成结构化嵌入,这对于图定义至关重要。
我们在四个公开数据集上,利用不同的 GNN 变体对方法进行了评估,重点关注能够保留高阶信息的模型,以实现有效的图分类。
本文的贡献如下:
我们提出了一种新方法,将网络流量表示为图,分别在流级与包级上通过分析数据包序列与字节流来构建互联图。
我们设计了一种高效的基于 GNN 的网络图分类器。通过测试多种 GNN 架构,重点关注整体图分类,建立了基线模型,并进行定制化改进。实验表明,该架构在流级与包级分类中均表现优异。
我们对方法进行了全面评估,开展了与相关工作的对比分析,并提供了实验解释。结果表明,我们所提出的网络图结构通过保留关键信息,有效提升了加密网络流量分类的性能。
论文结构
本文余下部分的安排如下:第二部分介绍网络流量与所采用的图神经网络(GNN)的基础知识;第三部分介绍我们定义与构建网络图的方法以及分类模型;第四部分介绍所使用的数据集并进行深入的实验分析;第五部分讨论我们方法的新颖性与关键发现;第六部分回顾相关文献;第七部分对全文进行总结并展望未来工作。