当前位置：首页 > news >正文

代码分析之符号执行技术

news 2025/9/1 10:11:31

开篇

今天我们来学习一项在网络安全领域常用的分析技术: 符号执行。

该技术在上个世纪70年代就已经被提出了，经过几十年的发展与优化，目前已经可以说是一项比较成熟的技术了，广泛应用在自动化测试用例生成、程序路径可行性分析和安全漏洞挖掘等领域。

不过不用被它的名字吓到，以为其是某种高大上且艰深难懂的技术，其实它从原理到应用都很好理解。计算机领域存在许多看似高端实则接地气的概念，比如软件设计中的依赖注入、控制反转等等，符号执行也属于这类概念，并不是只有计算机大神们才能掌握的技术。

接下来我们就从符号执行的原理到应用来深入学习下。

原理

符号执行的基本思想是将输入到程序的具体输入数值（比如用户输入、文件数据）用符号来表示（比如 $α\alpha$ 、 $β\beta$ ），所谓的符号可以理解为占位符，代表了该输入数据的所有可能的取值。

另外，在符号执行的分析过程中，那些不易或者无法确定取值的变量，往往也使用符号进行表示，并参与后续分析。

然后从头开始遍历每行程序代码，跟踪符号在程序中的传播过程。将每行代码解释为语义对等的对符号的具体操作，比如对符号的加减乘除等操作。

程序中需要处理和计算的变量或者某些"数值"，被解释为包含符号与常量的运算表达式，比如变量x= $2∗α+12\ast\alpha+1$ 。

也就是说，程序的正常执行和符号执行的主要区别是：正常执行时，程序中的变量可以认为被赋予了具体的值。而在符号执行时，变量的值既可以是具体的值，也可以是包含符号的运算表达式。

对于程序中的控制转移语句，比如if、switch-case或while等，符号执行将跳转的条件表示为针对相应符号的多个约束条件。通过求解这些约束条件，可以进一步判断该分支是否可达，这个过程也就是路径可行性分析。

说白了就是解方程，比如对于如下的约束条件：

$3α+5β=213\alpha+5\beta=21$
$2α−7β=−172\alpha-7\beta=-17$

求解后可得 $α=2,β=3\alpha=2,\beta=3$ ，也就是存在输入使该路径可达，反之则该路径不可达。

通过将程序中的输入表示为符号的运算表达式并分析路经条件，可以发现程序的一些特性，而有些特性恰好是漏洞分析所关心的，来达到漏洞挖掘的作用。
在这里插入图片描述

形式化说明

一、基础定义

1.符号输入
程序输入变量集合表示为符号变量：

$Input={α1,α2,...,αn}Input=\{\alpha_{1},\alpha_{2},...,\alpha_{n}\}$

2.程序状态
符号执行状态定义为三元组：

$State=(σ,pc,loc)State=\left(\sigma,pc,loc\right)$

$σ\sigma$ （符号状态映射）：变量到符号表达式的映射函数，即 $⁣:Var→Expr\sigma\colon Var\rightarrow Expr$ 。例如： $σ(x)=2α1+3\sigma\left(x\right)=2\alpha_{1}+3$ 表示变量 $x$ 的符号表达式；
pc（path constraint，路径约束）：布尔表达式，记录当前路径的条件分支逻辑组合，初始值为 true；
loc（location，程序计数器）：指向下一条待执行语句的地址或行号；

二、执行规则

符号执行过程通过状态转移函数 $⇒\Rightarrow$ 描述，状态转移规则如下：

1.赋值语句

对于赋值语句 $v = e$ （ $e$ 为表达式）：

$(σ,pc,loc)⇒(σ[v↦σ(e)],pc,loc′)\left(\right.\sigma,pc,loc)\Rightarrow(\sigma[v\mapsto\sigma\left(e)],pc,loc^{\prime}\right)$

$v↦σ(e)v\mapsto\sigma(e)$ 代表变量 $v$ 与表达式 $e$ 的符号表达式的映射关系。

更新 $σ\sigma$ ，增加这个新的映射。 $loc′loc^{\prime}$ 为下一条语句地址或行号。

2.条件分支

对语句 if (e) S1 else S2：

Then分支：
$(σ,pc,loc)⇒(σ,pc∧σ(e),loc1)(\sigma,pc,loc)\Rightarrow(\sigma,pc\land\sigma(e),loc_1)$
Else分支：
$(σ,pc,loc)⇒(σ,pc∧¬σ(e),loc2)(\sigma,pc,loc)\Rightarrow(\sigma,pc\land\neg\sigma(e),loc_2)$

其中 $σ(e)\sigma(e)$ 为条件表达式 $e$ 的符号表达式， $loc_1$ 和 $loc_2$ 分别为 S1 和 S2 的入口地址或行号。

3.内存与指针操作

对内存访问 read(addr) 或 write(addr,val)：

若地址 addr 为符号表达式（如 αi+4），则返回符号化内存值
形式化表示为： $σ(read(addr))=MEM[σ(addr)]\sigma(read(addr))=MEM[\sigma(addr)]$
其中 $MEM$ 为符号化内存映射。

三、约束求解与终止条件

1.路径终止

当执行到达程序结束点、错误点（如assert语句）或任意人为设置的程序点时，当前路径的pc（路径约束）被提交给约束求解器（比如微软的z3）：

$UNSAT→路径不可达)Solver.check(pc)=\begin{pmatrix}SAT\rightarrow生成测试输入\ \ UNSAT\rightarrow路径不可达\end{pmatrix}$

求解器输出满足pc的符号的具体值。

2.路径爆炸处理

路径数量随分支数指数增长，需引入剪枝策略：

若 pc 包含矛盾（如 $α > 0 \land α < 0$ ），终止该路径；
动态符号执行中，通过具体值简化约束；

示例说明

接下来，我们用一个示例来说明一下符号执行的基本原理。
在这里插入图片描述

符号执行过程：

1.初始状态： $σ=x↦α,pc=true,loc=start\sigma={x↦\alpha}, pc=true, loc=start$ 。

2.分支语句 if (x>0)：

Then分支： $σ1=x↦α,y↦α+1,pc1=(α>0)\sigma1={x\mapsto\alpha,y\mapsto\alpha+1},pc_{1}=(\alpha>0)$ 。
Else分支： $σ2=x↦α,y↦α−1,pc2=(α⩽0)\sigma2={x\mapsto\alpha,y\mapsto\alpha-1},pc_{2}=(\alpha\leqslant0)$