一种混沌驱动的后门攻击检测指标
摘要
人工智能(AI)模型在各个领域的进步和应用已经改变了我们与技术互动的方式。然而,必须认识到,虽然人工智能模型带来了显著的进步,但它们也存在固有的挑战,例如容易受到对抗性攻击。目前的工作提出了一种针对人工智能模型最重要攻击媒介之一的新型防御机制——通过训练数据集的数据投毒进行的后门攻击。在这种防御技术中,提出了一种结合混沌理论和流形学习的综合方法。本文提出了一种新的度量标准——精度矩阵依赖性得分(PDS),它基于神经混沌特征的条件方差。PDS度量标准已成功评估,可以区分不同数据集中受污染的样本和未受污染的样本。
引言
在过去的几十年里,人工智能(AI)系统取得了显著的进步和前所未有的变革。诸如生成型预训练Transformer(GPT)等大型语言模型(LLM)的出现,促使其在内容生成、机器翻译、代码补全、聊天机器人、虚拟助手等领域得到广泛应用,并因此无缝地融入到日常生活的各个方面。随着这些技术的应用持续增长,它们的应用范围也在不断扩展,从医疗保健、金融到教育等各个行业,使其成为现代社会不可或缺的一部分。
尽管人工智能模型在语言生成和处理方面表现出卓越的能力,但这些人工智能模型也极易受到各种形式的对抗性攻击,例如数据投毒(Biggio et al., 2012)、提示注入(Clusmann et al., 2025)、模型权重投毒(Hitaj et al., 2022)和规避攻击(Oprea et al., 2022)。预训练语言模型的大量使用以及未经审查的公开数据集用于训练,构成了重大的安全漏洞,对手可以利用这些漏洞对人工智能模型发起对抗性攻击。因此,人们持续关注在现实世界中安全、可靠和合乎伦理地部署人工智能系统的问题。目前的工作重点是防御人工智能模型的系统完整性,使其免受一种复杂的数据投毒攻击,即后门攻击。
在后门攻击中,攻击者会有意地将细微的后门插入到训练数据集的一个小子集中,目的是在人工智能模型部署到现实世界中时,恶意修改其分类或预测。自然语言处理(NLP)领域的后门触发器可以是精心设计的词语或短语,以便在与合法的训练数据混合时保持隐蔽性(Li et al., 2022)。同时,选择后门触发器的目的是有效地误导模型,使其在输入中出现后门触发器时(在实时应用中)预测不正确的目标标签。此外,当人工智能模型在这些恶意修改的样本上进行训练时,模型仅对带有后门触发器的样本发生错误分类,而对于没有后门触发器的样本,模型保持正常的模型准确率。攻击者可以利用精心设计的后门触发器,这些触发器可能导致潜在的恶意结果,包括逃避有毒内容检测,或通过植入后门的神经机器翻译(NMT)系统将用户重定向到网络钓鱼站点。鉴于公开可用的训练数据集被广泛用于训练人工智能模型,通过数据投毒发起的后门攻击对人工智能模型的功能完整性构成了重大威胁。因此,在预训练阶段防范公开可用数据集中的后门触发器对于维护在此类数据上训练的人工智能模型的可信度和可靠性至关重要。
目前的工作提出了一种基于混沌的新型后门触发器检测指标,其中神经混沌学习(NL)算法(Balakrishnan et al., 2019)的各个方面与(Surendrababu and Nagaraj, 2024)中描述的与模型无关的方法相结合。神经混沌学习方法是一种受大脑启发的机器学习算法(模仿大脑中神经元的混沌爆发和尖峰行为),已成功应用于各种分类任务。然而,在后门检测的背景下,使用神经混沌特征的效用从未被探索过。为此,目前的工作侧重于通过使用经由混沌变换获得的特征来检测中毒训练数据集中的静态后门触发器。
相关工作
在自然语言处理领域中,现有的后门触发器防御机制通过在预训练阶段检测受污染数据集中的后门触发器(Tran et al., 2018;Chen et al., 2018)或在推理阶段检测模型是否被植入后门(Yang et al., 2021;Chen et al., 2022;Qi et al., 2020;Gao et al., 2019)来发挥作用。然而,前一种方法需要在受污染的数据集上训练一个特定的模型来检测后门触发器,而后一种方法则要求防御者能够访问一小部分可信的验证数据集。这两种假设在现实场景中可能都不切实际,因为获得可信的数据集通常是不可行的,尤其是在数据来源于未经验证的数据存储库、网络爬虫和其他不受控制的渠道时(Surendrababu and Nagaraj, 2024)。此外,在受污染的数据集上训练模型、检测后门触发器以及在清理后的训练数据集上重新训练模型将需要大量的计算资源。
为了克服上述局限性,本文作者先前提出了一种与模型无关的后门触发器检测方法(Surendrababu and Nagaraj, 2024;Surendrababu, 2023),该方法可以检测来自不同领域的训练数据集中的静态后门触发器。
本文贡献
目前的工作提出了一种新颖的后门检测方法,通过利用混沌变换获得的特征并结合流形学习。这种集成方法利用神经混沌特征来检测预训练阶段的静态后门触发器。为此,我们提出了一种新颖的基于混沌的度量,称为精度矩阵依赖性得分 (PDS),它可以用于区分训练数据中毒害类样本和非中毒害类样本。
据作者所知,目前的工作是首次使用通过混沌变换获得的特征来检测来自自然语言处理领域的训练数据集中潜在的后门触发器。
此外,新型精确矩阵依赖性得分 (Precision Matrix Dependency Score, PDS) 的有效性已在各种自然语言处理 (NLP) 数据集上成功测试,并使用香农熵 (Shannon Entropy) 度量进一步验证。
方法
后门攻击实验设置
后门攻击实验装置的概况如图1所示。
对于当前的研究,所分析的数据集包括来自自然语言处理领域的毒性内容检测(Peller, 2022)、假新闻检测(Ahmed et al., 2018)和SST-2文本数据集(Socher et al., 2013)。每个文本数据集的句子嵌入是通过使用Sentence Transformer库中的预训练模型获得的(Reimers and Gurevych, 2019)。对于以冗长的新闻文章作为文本输入的文本数据集,使用BERT-uncased模型(Devlin et al., 2019)来生成句子嵌入。这些数据集中的每一个都有两个类别的样本,类别标签为正类和负类。后门攻击是通过将静态后门触发器或短语插入到一小部分合法的训练数据集中来模仿的,如(Chen et al., 2021)中所述。
相应的中毒样本的类别标签被更改为特定的目标标签。在目前的分析中,中毒样本的目标标签被选择为正类。换句话说,后门攻击包括将触发器插入到来自负类的一小部分样本中,并将它们相应的类别标签更改为正类。由此产生的中毒样本成为训练数据集的一部分。在这种情况下,如果模型在这样的中毒数据集上进行训练,则该模型会对中毒样本做出不正确的预测/分类,同时保持模型在没有后门触发器的样本上的准确性。对于当前的研究,我们使用了静态NLP后门触发器,如(Chen et al., 2021;Surendrababu and Nagaraj, 2024)中所述。
图1. 后门攻击实验设置。
为了理解所使用的后门触发器的有效性及其对模型性能的影响,分析包括攻击成功率(ASR),如(Surendrababu and Nagaraj, 2024)所述。ASR可以定义为“使用中毒模型的对手发起的后门攻击总数中,后门攻击成功次数与后门攻击总数的比例。
在后门攻击的背景下,投毒率可以定义为“已被投毒并注入训练数据集的训练样本的比例,其目的是影响模型在推理时的行为。”(Surendrababu and Nagaraj, 2024)。用于模拟当前分析的后门攻击的投毒率在 5% 到 10% 的范围内。
基于混沌方法的后门触发器检测
使用基于混沌的方法进行后门触发检测的总体思路是利用通过混沌变换获得的特征来区分受污染的样本和未受污染的样本。虽然神经混沌学习(NL)方法已成功地在各种类别上进行了各种分类任务的测试,但以前从未探索过利用神经混沌特征来推导类内分离的有效性。由于带有后门触发器的受污染样本被插入到合法训练数据集中未受污染的样本中,因此后门检测的基本思想是区分一个类中的样本。为此,基于混沌的方法通过流形学习技术——均匀流形逼近和投影(UMAP)(McInnes et al., 2018)和基于密度的带噪声应用空间聚类技术(DBSCAN)(Ester et al., 1996)微调来自NL算法的特征。
应当注意的是,对于静态后门触发检测这一既定目标,中毒数据集的生成方式是将中毒样本(其原始类别标签为负)插入到正类中,并将其对应的标签更改为正类。鉴于这一事实,用于分类的NL方法,其超参数的微调是基于使用宏F1分数(而宏F1分数又依赖于拥有正确的类别标签)作为评估指标,这对于当前后门触发检测的目标来说是不够的。这是因为当前的威胁模型假设类别标签已被攻击者破坏。为此,NL方法通过调整NL的超参数调整部分,以提取样本间的类内分离,从而以一种巧妙的方式进行了修改。换句话说,基于混沌的方法通过非线性降维技术统一流形逼近和投影(UMAP)以及基于密度的噪声应用空间聚类技术(DBSCAN)来微调来自NL算法的特征。接下来将详细描述基于混沌的方法。
图2. 基于混沌的精度矩阵依赖性评分的后门触发检测方法。
NL入门
正如神经混沌学习算法(Balakrishnan et al., 2019)中所述,输入数据集被归一化到区间
[0,1]中的值。每个归一化的输入特征通过由一维广义吕肉斯级数(GLS)神经元组成的输入层转换成一个混沌特征空间。一旦获得了特定训练实例的输入刺激的神经痕迹,就从对应于每个输入特征的神经痕迹中提取各种特征,例如激发时间、激发率、能量、熵。对于分类任务,GLS映射的各种超参数,例如初始神经元活动(q)、混沌映射的判别阈值(b)和噪声强度(ε),通过网格搜索(跨5折交叉验证设置)进行调整,以找到分类任务的最佳超参数。宏平均F1分数被用作在NL方法中微调分类任务超参数的评估指标。读者可参考(Balakrishnan et al., 2019)以获得关于神经混沌学习架构的详细描述、架构和关键原理。NL在多个基准数据集的分类中产生了最先进的性能,并且还保留了因果关系(Harikrishnan et al., 2022;Harikrishnan and Nagaraj, 2021)。
基于混沌的精确矩阵依赖性得分(PDS)后门检测方法 基于混沌的PDS方法中使用的方法如图2所示,并在下文中详细阐述。
2. 对于NL方法的各种超参数,其中包括初始神经活动(q),
3. 随后,使用非线性降维技术均匀流形逼近和投影(UMAP)转换针对阳性中毒类别获得的神经混沌特征,如模型无关方法中所述(Surendrababu and Nagaraj, 2024)。UMAP转换步骤检测可能由于训练数据集中存在后门触发器而产生的任何可能的不同聚类。
4. 经过UMAP变换后,使用DBSCAN聚类算法(Ester et al., 1996)将潜在的受污染簇与未受污染的样本分离。
5. 计算 Calinski Harbasz 指数 [CHI] (Calinski´ and Harabasz, 1974),以评估从 DBSCAN 算法获得的聚类输出。
6. 通过迭代上述步骤1至5,进行网格搜索以获得最佳的NL超参数。CHI被用作评估指标,以找到最佳的NL超参数,进而可用于检测训练数据集中潜在的后门触发器。
9. 针对神经混沌特征矩阵的每一类,构建并计算精确矩阵依赖性得分(PDS),如下所述。
精度矩阵 θ在数学上定义为协方差矩阵 Σ的逆 (Morrison et al., 2022;Balmand and Dalalyan, 2016)。
在某些情况下,协方差矩阵的病态程度过高,无法直接计算协方差矩阵的逆矩阵,或者当协方差矩阵中的特征数量大于可用样本数量时,将通过 graphical lasso 方法计算精度矩阵。读者可以参考 (Friedman et al., 2008),以获得通过 Graphical Lasso 方法计算的精度矩阵的详细理论处理。
对应于每个类别的神经混沌特征向量的数据矩阵是均值中心化的,这三个类别分别是未中毒的样本和正类的中毒样本,以及负类的未中毒样本。来自正类的中毒样本的均值中心化数据矩阵表示如下:
其中 µ是形状为 1 × N 的均值向量,其中 µ中的每个元素对应于来自中毒类的单个特征向量
fp 的均值。
样本协方差矩阵 Σ是针对中毒训练数据集中每个类别的均值中心化神经混沌特征矩阵计算得出的,如下所示:
其中
Fpcentered
是均值中心化的神经混沌特征矩阵,其形状为m × N矩阵,包含m个样本和N个特征,该矩阵是通过UMAP和DBSCAN变换以及聚类步骤获得的。
每个不同类别的精度矩阵 θ 通过计算相应样本协方差矩阵的伪逆得到,如下所示:
精度矩阵依赖性得分PDS定义为精度矩阵对角线元素的迹,如下所述:
针对三个不同类别(即正类的未中毒样本、正类的中毒样本和负类的未中毒样本)中每一个类别的特征计算PDS。
第4节描述了基于混沌方法的后门检测在不同数据集上的实验评估。
结果
基于混沌的精确矩阵依赖性评分(PDS)的实验评估
通过UMAP和DBSCAN变换步骤对SST – 2数据集上的NL超参数进行微调的实验评估如图3至图5所示。从图3至图5可以看出,在NL超参数调整阶段,与中毒样本和非中毒样本相对应的不同簇开始在中毒的阳性类别中出现。获得的不同簇表明存在后门,并表明神经混沌特征可用于检测训练数据集中的潜在后门。用于分析的NL超参数包括初始神经活动 (q)、判别阈值 (b) 和噪声强度阈值 (ε)。超参数 (ε) 表示 GLS 神经元从初始神经活动开始停止或停止放电所使用的邻域。最佳NL超参数
q和b分别为0.93和0.499,而对于NLP数据集,ε的范围为0.3到0.4。从图3至图5可以看出,在保持q和b恒定的情况下,通过调整ε超参数,UMAP变换开始从神经混沌特征中检测中毒簇。
在计算出最优神经混沌特征后,计算神经混沌特征对应的精度矩阵依赖性得分(PDS)。这项工作提出了精度矩阵依赖性得分(PDS),其计算方法是精度矩阵的迹或对角线元素之和。精度矩阵在数学上被计算为协方差矩阵的逆矩阵,它有助于识别各种特征变量之间的条件依赖性和条件方差。精度矩阵的非对角线元素表示条件依赖性,即在考虑所有其他特征变量后,两个特征之间存在的任何相关性(Morrison et al., 2022),而精度矩阵的对角线元素表示在考虑所有其他变量后,特征的条件方差。精度矩阵已被广泛用于识别各种特征变量之间的虚假相关性,如(Das et al., 2017)中所述。精度矩阵的负非对角线元素已被用于识别数据集中局部群组成员,在考虑特征变量中的主要因素后,如(Oh and Kim, 2024)中所述。
然而,之前从未探索过使用精度矩阵作为区分训练数据集中受污染样本和未受污染样本的工具的效用。本文提出的精度矩阵依赖性得分(PDS)指标量化了受污染训练数据集中不同类别的神经混沌特征的条件方差,并在表1至表3中进行了描述。
表1. SST-2数据集,精确矩阵依赖性得分(PDS)。
表2. Jigsaw Toxicity数据集,精确矩阵依赖性得分(PDS)。
表3. 假新闻检测数据集,精确率矩阵依赖性得分(PDS)。
通过香农熵的互补分析
对于被污染类别样本,计算得到的PDS值明显高于未被污染类别样本,这表明特征的可预测性更高,不确定性更低。因此,进行了基于香农熵的补充分析,以验证这一发现。实验评估表明,在能量神经混沌特征上计算的香农熵可以有效地区分被污染类别和未被污染类别。因此,香农熵分析仅使用能量神经混沌特征进行。对污染数据集中各个类别的香农熵进行统计t检验和Mann Whitney U检验的结果如表4至表8和图6至图9所示。
图8和图9分别描绘了中毒类和非中毒类的香农熵分布。
神经混沌特征在维度上的离散程度的附加度量Dp是通过将以下变换应用于来自每个不同类别的所有归一化神经混沌特征来计算的。用于此分析研究的神经混沌特征包括能量、熵、放电时间和放电率。
表 4. 正类(未中毒样本)和正类(中毒样本)香农熵的 t 检验结果,显著性水平 =0.05,5% 中毒率。
表5. 正类(未中毒样本)和负类(未中毒样本)香农熵的t检验结果,显著性水平=0.05,5%中毒率。
表6. 正类(中毒样本)和负类(非中毒样本)香农熵的t检验结果,显著性水平=0.05,中毒比例5%。
表 7. Mann-Whitney U 检验结果,针对正类(中毒样本)和负类(非中毒样本)的香农熵,显著性水平 =0.05,5% 中毒比例。
其中,f pi代表与中毒类别相对应的归一化神经混沌特征向量,N代表中毒类别中特征的总数。
表 8. Mann-Whitney U 检验结果,针对正类(未中毒样本)和负类(未中毒样本)的香农熵,显著性水平 =0.05,5% 中毒率。
图 6. 在 SST-2 数据集的神经混沌特征上计算的香农熵,中毒率为 5%。
离散度的测量是在三个类别中计算的,结果如图10所示。从图10中可以看出。
讨论
PDS的分析与解读
如从表1至表3所观察到的,对于不同的中毒比例,正类中毒样本计算出的PDS明显高于正类和负类非中毒样本。这一观察结果适用于所有的NLP数据集。PDS有效地量化了中毒训练数据集中每个不同类别的神经混沌特征的条件方差。鉴于这一事实,与非中毒类样本相比,中毒类样本观察到的极高的PDS值表明中毒类神经混沌特征具有非常高的精度。精度矩阵对角线元素中的高精度反过来意味着相应特征的条件方差非常低。这一发现表明,在中毒类的精度矩阵中,当考虑所有其他特征时,对角线元素的条件方差几乎没有变化。因此,一旦所有其他特征已知/被条件化,中毒类样本的神经混沌特征具有较小的变异性,并且更可预测。这意味着与非中毒类样本相比,对应于中毒类样本的神经混沌特征之间具有高度的依赖性。
图 7. 在 Jigsaw Toxicity 数据集的神经混沌特征上计算的香农熵,中毒率为 5%。
图 8. 在 SST-2 数据集的神经混沌特征上计算的香农熵分布,中毒率为 5%。
图 9. 在 Jigsaw Toxicity 数据集的神经混沌特征上计算的香农熵分布,中毒率为 5%。