论文学习_Understanding the AI-powered Binary Code Similarity Detection
摘要:近年来,AI驱动的二进制代码相似性检测(Binary Code Similarity Detection, 简称 BinSD)已广泛应用于程序分析领域。该技术通过神经网络将复杂的二进制代码比较问题转化为代码嵌入向量之间的距离度量。然而,由于现有研究在嵌入策略、评估方法、运行环境以及使用的基准数据集等方面存在较大差异,导致我们难以量化评估 BinSD 在现实应用中的解决程度。此外,当前对日益复杂的嵌入神经网络结构及多样化评估方法缺乏深入系统的研究,已成为制约 AI 驱动 BinSD 发展的关键因素。为弥补这一研究空白,本文对当前主流的 BinSD 方法进行了系统评估,围绕相似函数检测以及两个下游任务(漏洞搜索和许可证违规检测)进行了全面对比。在此基础上,我们首次对嵌入神经网络结构和评估方法展开深入分析。研究AI驱动的BinSD
实验结果带来了若干重要发现,为 BinSD 领域提供了有价值的洞察,包括:(1)尽管基于图神经网络(GNN)的 BinSD 系统在相似函数检测中表现最佳,但仍有显著提升空间;(2)AI 驱动的 BinSD 方法在不同下游任务中的表现差异较大,稳定性和泛化能力仍需加强;(3)现有的评估方法(如广泛采用的 ROC 曲线和 AUC 指标)在真实场景中往往难以准确反映模型性能,亟需进行调整优化。基于广泛的实验与分析,本文还提出了若干值得深入探索的未来研究方向。为推动该领域的发展,我们将开源全部数据集、基准测试和实现细节,以支持后续研究工作。图神经网络效果较好,但仍有提升空间
引言
BinSD(Binary Code Similarity Detection,二进制代码相似性检测)旨在在缺乏源代码的情况下,衡量两个二进制程序之间的相似度。目前,该技术已成为支撑多个应用场景的核心组件,包括漏洞检测、许可证违规识别、补丁分析以及恶意软件分析等。尤其是在应对供应链攻击所带来的严重后果时,BinSD 已被广泛视为默认采用的关键手段。过去几十年中,研究者提出了多种性能优异、特性各异的 BinSD 方法,用以解决不同背景下的相似性检测问题。然而,受编译配置、指令集架构(ISA)和工具链等因素所引入的大量二进制变化影响,BinSD 实际上远比表面看上去复杂。此外,随着软件工程的快速发展,现代软件通常规模庞大、代码量剧增且分布广泛,程序结构愈发复杂,从而进一步加大了 BinSD 的技术挑战。BinSD介绍
在自然语言处理(NLP)和图表示学习(GRL)等人工智能技术迅猛发展的推动下,越来越多研究开始尝试将图神经网络(GNN)、卷积神经网络(CNN)以及长短期记忆网络(LSTM)等广泛应用的神经网络模型引入到 BinSD(Binary Code Similarity Detection,二进制代码相似性检测)任务中。与传统 BinSD 方法相比——后者通常依赖符号执行、图匹配、哈希技术等策略——这些基于 AI 的方法已在多个维度上取得了显著成效。然而,尽管取得了一定进展,当前学术界对 BinSD 问题的解决程度仍难以形成清晰认知,背后原因涉及多个方面,亟待进一步厘清。AI驱动的BinSD引出
当前 AI 驱动的 BinSD 方法在发展过程中面临四大核心问题:嵌入策略与评估标准不统一、神经网络模型缺乏可解释性、评估指标选用不当,以及对下游应用支持研究不足。具体而言,(1)不同系统在特征提取方式、嵌入网络架构和评估数据集方面存在显著差异,导致无法实现公平、量化的性能对比;(2)随着模型结构日趋复杂,大多数神经网络仍被视为“黑箱”,缺乏透明度和解释性,从而削弱了用户信任;(3)尽管许多方法采用 ROC 或 AUC 等传统分类指标进行评估,但这类指标难以准确反映 BinSD 更偏向推荐检索任务的实际表现;(4)已有研究对下游应用场景的覆盖有限,尤其在漏洞检测之外的实际任务中,缺乏系统性的实证验证,难以全面体现其真实能力。AI驱动的BinSD现存问题
若不对上述关键问题展开深入研究,BinSD 领域将难以实现实质性和高效的发展。为弥补这一研究空白,研究人员首先在相同的基准和评估指标下,系统评估了现有 AI 驱动的 BinSD 方法在相似函数检测与下游任务中的表现,并选取了两个具有代表性的应用场景——漏洞搜索与许可证违规检测,作为评估对象,因为这两类任务是当前 BinSD 方法普遍声称可以支持的主要下游应用。在此基础上,研究进一步深入分析了各方法所采用的二进制嵌入神经网络及评估方法,以全面理解其优势与局限。总体而言,本研究聚焦于三个关键方向:(1)评估主流 BinSD 方法在相似函数检测及实际应用中的表现,(2)理解当前主流嵌入神经网络与评估机制的特点,(3)探索未来潜在的研究发展路径。研究内容引出
背景知识
尽管当前的 AI 驱动 BinSD 方法在具体实现上依赖于多种技术路径与复杂的神经网络结构,但整体流程通常遵循一套较为主流的三阶段框架:首先进行预处理,对原始二进制程序进行规范化处理;其次构建代码表示,将程序转换为适合神经网络处理的中间结构;最后进行代码嵌入,通过模型提取可用于相似性度量的嵌入向量。
- 代码预处理:在 BinSD 流程的预处理阶段,AI 驱动的工具通常会针对输入的两个二进制代码片段提取相关特征。具体而言,大多数方法会在反汇编后进行指令归一化处理,以避免类似自然语言处理(NLP)中常见的“词汇外”(OOV)问题。此外,为减少函数内联所带来的控制流图(CFG)结构变化,有些工具还会执行选择性被调用函数内联操作。另有一些方法则采用手工特征提取,或通过指令嵌入的方式,将低层次二进制信息转化为可用于后续模型处理的特征标签,从而为每个二进制片段赋予唯一表示。
- 代码中间表示:在完成预处理之后,接下来的关键步骤是将二进制代码转换为适合神经网络输入的结构化表示。根据已有的实证分析,AI 驱动的 BinSD 工具通常会将一个二进制代码片段表示为抽象语法树(AST)、控制流图(CFG)、数据流图(DFG)、基本块邻接矩阵、指令序列,或是上述多种形式的组合。不同表示方式能够从不同维度捕捉程序的结构与语义,为后续的嵌入建模提供基础。
- 代码嵌入:在流程的最后阶段,AI 驱动的 BinSD 方法通常会利用图神经网络(GNN)、卷积神经网络(CNN)以及循环神经网络(RNN)或长短期记忆网络(LSTM)等主流模型,将前述的代码表示转换为低维向量形式,即代码嵌入。随后,系统通过对这类嵌入向量进行相似度计算,从而判断输入的二进制代码对在语义层面上的相似程度。
方法评估
BinSD方法:在相似函数检测环节,研究者使用统一的数据集与多种评估指标,对不同 BinSD 方法的准确性与效率进行了公平且全面的对比分析。在准确性评估中,目标是观察在给定一个查询函数的情况下,现有 BinSD 方法能在大型函数库中识别出多少与之语义相似的函数(即由同一源代码编译而来的函数)。具体而言,在表 1 所列的 24 个 BinSD 方法中,共有 15 个具备函数级对比能力的代表性方法被纳入评估。部分方法则因客观原因被排除,例如 Oscar 由于对计算资源要求极高(需使用 8 张 V100 GPU),难以纳入统一测试;另外如 Codee 、XBA 和 VulHawk 虽部分开源,但由于论文描述不足,无法准确复现其方法,并且在尝试联系作者后未能获得有效回应或支持。
下游任务:在实际下游应用方面,许多研究者声称所提出的 BinSD 方法可广泛应用于物联网固件中的漏洞搜索与许可证违规检测。因此,相关评估聚焦于这两个具有现实意义的应用场景。考虑到前文已对各 BinSD 方法在相似函数检测中的表现进行了全面对比,同时漏洞与许可证问题的确认过程需投入大量人工精力,本次评估选取了部分具有代表性的 BinSD 方法,依据以下标准展开性能分析:(1)必须支持在 ARM 架构下运行 BinSD 分析,这是本次所选物联网设备的主要平台;(2)具备大规模分析能力,例如 Focus-skip 方法因生成所有固件函数嵌入所需时间超过六个月,故被排除;(3)覆盖主流的函数嵌入技术,包括基于 RNN/LSTM、GNN 和 CNN 的模型;(4)在相似函数检测任务中表现优异,例如在多个 Gemini 变体中,Gemini-skip 表现最佳,因此被纳入评估。最终,通过筛选,研究选取了五种 BinSD 方法,用于深入理解当前主流 BinSD 技术在真实应用场景中的实际能力。
实验设置
在实现方面,本研究主要涵盖以下三个方面的工作:(1)针对部分开源 BinSD 方法因逻辑错误或实现缺陷而无法复现的问题,进行了必要的修正;同时,针对部分闭源方法(如 BinaryAI-bert2),研究团队进行了重新实现,并使得模型在 AUC 指标上达到了与原论文相近的性能水平。(2)为实现可比性评估,所有方法均使用相同的数据集进行测试。考虑到 AI 驱动方法在更换数据集时,神经网络的超参数可能需要调整以保障性能,因此对各 BinSD 嵌入模型的超参数进行了优化,以确保其在对比中展现出最佳效果。(3)在执行相似函数检测任务的准确率、召回率和 MAP 等评估指标计算前,需先生成函数级的嵌入表示,但多数 BinSD 方法并未提供嵌入生成的具体实现。因此,研究团队为这部分方法补充实现了函数嵌入生成模块。关于方法修复与重实现、超参数选择策略以及嵌入生成的具体细节,均已在公开的实验材料中提供。实验训练过程中,数据集划分方式遵循各方法原始论文设定;此外,与现有 BinSD 方法一致,对于函数对(𝑓₁, 𝑓₂),若源自相同源代码,则相似度标记为 1,反之为 -1。所有实验在一台配置为 256GB 内存、两颗英特尔 Xeon E5-2680 CPU(共 56 核)和 4 张 GeForce GTX 2080 GPU 的服务器上完成。
数据集构成
以往研究所使用的评估数据集各不相同,导致不同 BinSD 方法之间难以直接对比。为避免这一问题,研究团队精心构建了两个具有代表性的数据集,并已对外公开。Basic-dataset 用于训练 AI 驱动的 BinSD 模型并执行相似函数检测,涵盖 25 个开源程序、共 33 个 ELF 文件与 1,351,104 个函数,程序类型覆盖常用工具类、数据处理类和操作系统辅助类,如 OpenSSL、Busybox、Findutils 等。所有程序均在三种主流体系结构(ARM、x86 和 x64)下,使用四个常见优化等级(O0 至 O3)进行编译,这些架构覆盖了表 1 中超过一半的 BinSD 方法支持范围。Application-dataset 主要用于真实场景评估,包含十个漏洞函数、对应查询库(OpenSSL 和 Busybox)以及十个 IoT 固件镜像。具体而言,选取的漏洞函数来自广泛使用的第三方库 OpenSSL,涵盖数值错误、资源管理漏洞及输入验证不当等典型安全问题;所选的十个 IoT 固件则覆盖交换机、路由器、网络摄像头和接入点等设备,随机采样自 DLink、TPLink、Tuya和 Trendnet 四家主流厂商。值得注意的是,本次评估并不旨在对大规模 IoT 固件执行漏洞或许可证违规检测以审视其整体安全状况,而是聚焦于评估 AI BinSD 方法在实际环境下的表现。因此,这十个固件样本(共包含 1,935 个 ELF 文件与 651,048 个函数)已足以支撑本次研究目标。
同源函数检测
精度评估:在跨优化等级与跨体系结构评估中,研究者借助表 2 所示结果,采用两种常见的机器学习评估指标与七种推荐系统中广泛使用的排序指标,对现有 AI 驱动的 BinSD 方法在“已见”与“未见”数据集上的表现进行了系统对比(其中“已见”数据集用于模型训练)。每项指标的取值基于 3,000 次随机函数查询的平均结果,且每次查询所使用的函数库由 100,000 个随机函数构成。值得注意的是,Asteria 的函数比较过程极为缓慢(每次查询需数小时),因此未能完成全部 3,000 次查询,故其排序指标未予报告。从这些实验结果中可得出以下结论:(1)没有任何一个 BinSD 方法能在所有指标上始终表现最佳,例如 BinaryAI-bert2 的 AUC 最高,而 Gemini-skip 在排序指标上更优,表明不同方法适用于不同场景;(2)GNN 方法在排名指标上的表现领先,验证了其作为代码嵌入模型的潜力;(3)在跨指令集架构(ISA)测试中,召回率显著下降,例如 Gemini-skip 在 mono-seen 设置下的 recall@5 为 62.3%,而在 cross-seen 设置下则降至 25.42%,说明当前模型更易识别相同架构下编译的函数,跨架构 BinSD 仍面临挑战;(4)大多数方法在 Rank-1、MAP、MRR 和 NDCG 等排名指标上表现良好,且各方法间指标值相近,意味着这些指标在某些情况下难以区分高性能方法;(5)AUC 值高并不一定代表相似函数检测能力强,例如 BinaryAI-bert2 虽获得 99.2% 的 AUC 和 94.9% 的准确率,但其精确率仅为 32.21%,比 Gemini-skip 低 12.3%,且多个方法的 AUC 值非常接近,说明仅依赖 AUC 难以全面反映性能;(6)采用 skip-gram 模型生成的指令嵌入作为基本块特征的 BinSD 方法,其表现优于使用人工提取特征的方法,例如 Focus-skip 与 VulSeeker-skip 的 AUC 与精确率均高于其原始版本。上述结果进一步表明,神经网络在提取具有代表性的二进制特征方面具有显著优势。
效率评估:在效率对比方面,研究聚焦于当前主流 AI 驱动 BinSD 工具的训练与函数嵌入阶段的性能表现。考虑到多数方法在预处理与代码表示阶段的流程较为一致,且已有研究对这两个阶段的效率进行了详细描述(例如 Focus 指出 CFG 提取时间每个函数仅为 0.05 秒),因此本部分主要评估受神经网络结构影响较大的训练与嵌入时间。该评估分别在单一平台与跨平台环境下,基于训练数据展开。如表 4 所示,不同 BinSD 方法的训练与嵌入耗时差异显著,主要源于各方法所采用的神经网络结构不同。例如,MGMN 在单架构下完成模型训练仅需 36 分钟,而 Asteria 完成同一过程则耗时达 23 小时 33 分钟。函数嵌入阶段的耗时差异更为显著,Focus-skip 在跨平台生成嵌入时耗时高达 336 小时,而 Gemini 则仅需 1 小时 31 分钟完成同样任务。鉴于模型训练通常只需进行一次,而嵌入生成直接影响 BinSD 工具在实际场景中的可用性,因此研究者在评估工具实用性时更应关注嵌入效率。
下游任务
漏洞搜索:研究者评估了所选 BinSD 方法在识别 IoT 固件镜像中已知漏洞方面的能力。为便于检测流程,十个漏洞函数被编译为 ARM 架构平台,与目标固件镜像保持一致。此外,考虑到大多数 IoT 固件使用 -O2 或 -O3 优化等级进行编译,为提升匹配精度,这些漏洞函数也分别以 -O2 和 -O3 级别进行编译,最终得到 20 个漏洞函数样本。随后,研究团队对这些样本进行漏洞搜索,获得 BinSD 系统识别出的潜在相似漏洞函数列表。为了验证搜索结果中前十项(Top-K,K 设为 10 以尽可能多地识别出漏洞函数)是否为真实漏洞,首先比对搜索结果中可执行文件的名称是否与查询函数一致;若匹配,则进一步分析被剥离符号信息后的二进制函数,借助 IDA Pro 工具,将查询函数与搜索结果对应的伪代码片段进行人工比对,以确认漏洞是否真实存在。比对过程主要聚焦于函数体结构的相似性,包括局部变量、程序循环、调用函数以及常量字符串等关键特征。
漏洞搜索结果可以看出:(1)Gemini-skip 表现最为出色,在十个 IoT 固件镜像中成功检测出 24 个漏洞。这一结果与其在相似函数检测中的优异表现相一致,进一步印证了 GNN 架构在 BinSD 任务中的适用性;(2)多个 BinSD 方法在误报率方面仍有待优化。例如,UFE-attention 所报告的所有搜索结果中,仅有四项为真实漏洞,这意味着用户需投入大量人工精力从大量候选中筛选出实际存在的问题;(3)通过设定固定阈值来判断搜索结果是否为真实漏洞并不可行。以 CVE-2014-0195 为例,Gemini-skip 报告的七个可疑漏洞的相似度分数从 0.93 至 0.8 不等,若希望全部覆盖,阈值需低于 0.8。但在处理 CVE-2014-3513 时,其 Top-10 搜索结果的相似度均高于 0.9,然而这些结果无一为真实漏洞。这说明仅凭相似度阈值难以准确判断函数语义是否匹配。总体而言,目前的 BinSD 方法在漏洞检测场景下仍存在明显的改进空间。
许可证违规检测:研究者评估了所选 BinSD 方法是否能够识别闭源 IoT 固件镜像中所包含的 GPL 许可第三方库,例如 OpenSSL。为此,选取了 OpenSSL-1.0.1f 和 Busybox-1.27.0 中的 4 个 ELF 文件作为查询库,这两者在 IoT 固件中具有广泛使用基础。考虑到一个库通常包含大量函数,且库之间的相似性高度依赖于函数层面的相似性,因此,研究以库中所有查询函数的相似度平均值作为查询库与目标库之间的整体相似度得分 𝑆𝑄𝑇。具体做法是:对查询库 𝑄 中的每一个函数 𝑓,在目标库 𝑇 中进行检索,记录其 Top-1 相似度得分 𝑠𝑓,随后对所有 𝑠𝑓 取平均,得出 𝑆𝑄𝑇。通过这种方式,研究团队将查询库与 IoT 固件中的所有目标库进行比对,并根据相似度得分对所有目标库进行排序,最终记录与查询库最相似的目标库在排序中的位置,以评估 BinSD 方法在识别潜在许可证违规行为中的效果。
实验结果可以看出:(1)AI 驱动的 BinSD 方法在许可证违规检测任务中整体表现较好。其中,BinaryAI-bert2、Gemini-skip、VulSeeker、SAFE 和 UFE-attention 分别在 Top-1 排名中识别出 15、11、6、2 和 0 个查询 ELF 文件;(2)在所有评估的 BinSD 方法中,BinaryAI-bert2 能识别出最多的 GPL 第三方库。其原因在于,与漏洞检测任务相比,许可证检测中每个函数的检索库规模更小(目标函数通常仅限于目标库内部,数量一般不超过几千),在这种情况下,控制流图(CFG)的邻接矩阵作为特征表现更具区分度,因为在较小的函数集合中,很少存在多个不同函数具备极其相似的邻接结构;(3)相较于漏洞检测,所评估的五种 BinSD 方法在许可证检测中展现出更高的匹配准确率。例如,BinaryAI-bert2 能将大多数与查询库相似的目标库排入前三名。根本原因在于,漏洞检测依赖于对单个函数对的高精度识别,而这一点对现有 BinSD 方法仍是挑战;而许可证检测则基于整个程序函数集合的统计性相似度评估,因而更容易取得良好效果。整体而言,目前的 BinSD 工具在许可证违规检测场景下展现出较强的应用潜力。
总结由预处理,中间表示,嵌入构成的三阶段框架,由于BinSD中神经网络仅作为工具,因此个人感觉研究的方向应该集中在预处理和中间表示。