HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text
文本对抗性攻击分为白盒攻击和黑盒攻击,其中黑盒攻击更贴近现实,又可分为软标签和硬标签设置,。这些名词分别是什么意思
在文本对抗性攻击中,“白盒攻击”“黑盒攻击”以及黑盒攻击下的“软标签”“硬标签”设置,核心差异在于攻击者对模型信息的掌握程度以及模型输出的信息粒度。以下是具体解释:
一、白盒攻击(White-box Attack)
白盒攻击是指攻击者完全掌握模型的内部信息的攻击方式。
- 核心特征:攻击者知晓模型的全部细节,包括模型结构(如是否是BERT、LSTM等)、参数权重、训练数据分布、损失函数、激活函数等。
- 攻击逻辑:由于掌握完整信息,攻击者可直接利用模型的内部机制(如梯度信息)设计攻击策略。例如,通过计算模型对输入文本的梯度,定位到对模型预测影响最大的词语,再针对性地替换为同义词或近义词,生成对抗样本。
- 文本领域示例:已知目标模型是基于LSTM的情感分类器,且知道其各层权重,攻击者可通过梯度反向传播,找到“最敏感”的词语(如“精彩”),替换为语义相近但会改变模型预测的词(如“还行”),使模型将“正面”误判为“负面”。
二、黑盒攻击(Black-box Attack)
黑盒攻击是指攻击者对模型内部信息完全未知的攻击方式,仅能通过“输入文本→观察输出结果”的交互来推测模型行为。
- 核心特征:攻击者不知道模型的结构、参数、训练数据等任何内部细节,仅能将模型视为一个“黑盒”,通过不断输入不同文本,观察输出结果来优化攻击策略。
- 现实意义:更贴近实际场景(如调用第三方文本分类API、使用闭源模型),因为实际应用中模型通常是保密的,攻击者无法获取内部信息。
- 文本领域示例:调用一个未知的垃圾邮件检测API,攻击者只能通过发送不同邮件(如替换部分词语、调整句式),观察返回的“垃圾邮件”或“正常邮件”结果,逐步找到能绕过检测的对抗样本。
三、黑盒攻击中的“软标签”与“硬标签”设置
在黑盒攻击中,模型输出的信息粒度不同,可分为“软标签”和“硬标签”两种场景,直接影响攻击难度和策略设计。
1. 软标签(Soft Labels)
软标签指模型输出的是“概率分布”形式的结果,即对每个可能的类别都给出对应的概率值。
- 信息价值:能为攻击者提供更丰富的参考——不仅知道模型的预测类别,还能知道模型对该类别的“置信度”,以及对其他类别的“倾向性”。
- 攻击优势:攻击者可通过观察概率变化,更精准地调整扰动策略。例如,若模型对“正面”的概率是60%,对“负面”是40%,攻击者可针对性地修改文本,逐步降低“正面”概率、提高“负面”概率,直到模型误判。
- 文本示例:输入“这部电影剧情紧凑,演员演技出色”,模型输出“正面:85%;负面:15%”。
2. 硬标签(Hard Labels)
硬标签指模型仅输出最终的“预测类别”,不提供任何概率或置信度信息。
- 信息局限:攻击者仅能知道“模型认为这是哪一类”,但无法判断模型对该预测的“坚定程度”,也不知道其他类别的可能性。
- 攻击挑战:攻击难度更高,因为缺乏中间反馈。攻击者需通过大量尝试(如随机替换词语),观察预测类别是否变化,效率较低。
- 文本示例:输入“这部电影剧情紧凑,演员演技出色”,模型仅输出“正面”(无概率)。
总结
- 白盒攻击 vs 黑盒攻击:核心差异是“是否掌握模型内部信息”,黑盒更贴近现实。
- 软标签 vs 硬标签(黑盒下):核心差异是“模型输出的信息粒度”,软标签提供概率分布(信息更丰富),硬标签仅提供预测类别(信息更有限)。
这些分类本质上反映了“攻击者与模型的信息差”,而信息差直接决定了对抗性攻击的策略设计与难度。
guide
首先通过随机初始化生成初始对抗性样本;然后尽可能替换回原始词,以降低扰动率;最后利用剩余替换词的同义词集优化对抗性样本,同时通过为每个替换词搜索过渡同义词,避免遍历整个同义词集,减少查询次数
是的,你对HQA-Attack的核心流程概括得很准确,其步骤的逻辑链条可以总结为:
- 随机初始化:从原始文本中选取名词、动词等可替换词,随机替换为其同义词,生成初始对抗样本(需满足对抗条件,即模型预测错误)。
- 替换回原始词:动态尝试将替换词换回原始词,仅保留“换回后仍保持对抗性且提升语义相似度”的操作,以此减少扰动率🔶1-58🔶1-60🔶。
- 计算优化顺序:基于替换词与原始词的语义差异(余弦距离)确定抽样概率,优先优化那些与原始词语义更接近的替换词,保证优化效率🔶1-68🔶1-69🔶。
- 过渡词筛选:针对待优化的替换词,从其同义词集中随机选取少量候选词,筛选出既能保持对抗性又提升语义相似度的过渡词,避免全量遍历同义词集🔶1-72🔶1-74🔶。
- 估算优化方向u:围绕过渡词的同义词集,通过语义相似度差异的加权计算,得到指向“提升语义相似度”的更新方向u🔶1-86🔶。
- 定向优化:沿方向u从原始词的同义词集中选取最优替换词,确保新样本既满足对抗条件,又进一步提升语义相似度🔶1-88🔶。
整个流程通过“初始化-减扰-定向优化”的迭代,在有限查询预算内生成高语义相似度、低扰动率的对抗样本,各步骤紧密衔接,共同服务于“高质量攻击”的目标。