当前位置：首页 > news >正文

SymAgent（神经符号自学习Agent）

news 2025/11/13 21:20:47

来自：SymAgent: A Neural-Symbolic Self-Learning Agent Framework for Complex Reasoning over Knowledge Graphs

引理

符号规则

知识图谱是事实三元组的集合，表示为 $\{(e, r, e') | e, e' \in E, r \in R\}$ ，其中 $E$ 和 $R$ 分别代表实体集和关系集。知识图谱中的符号规则通常表示为一阶逻辑公式：
$rh(x,y)←r1(x,z1)∧r2(z1,z2)∧...∧rn(zn−1,y),(1)r_{h}(x, y) \leftarrow r_{1}\left(x, z_{1}\right) \land r_{2}\left(z_{1}, z_{2}\right) \land ... \land r_{n}\left(z_{n-1}, y\right), (1)$

其中，左侧表示规则头，包含关系 $r_{h}$ ，该关系可由右侧的规则体推导得出（←）；规则体形成一个闭合链，后续关系共享中间变量（如 $z_i$ ），通过合取（∧）来表示。通过将所有变量 $x$ 、 $y$ 、 $z$ 替换为特定实体，知识图谱可被视为符号规则的实例化。例如，给定三元组（Sam，workFor，OpenAI）、（OpenAI，locatedIn，SF）和（Sam，liveIn，SF），一个长度为2的符号规则的实例化为liveIn(Sam, SF) ← workFor(Sam, OpenAI) ∧ locatedIn(OpenAI, SF)。

任务描述

在本文中，将知识图谱（KG）上的推理任务转化为一项基于大语言模型（LLM）的智能体任务。在此任务中，知识图谱充当提供执行反馈的环境，而非仅仅作为知识库。因此，推理过程可被视为与来自知识图谱的部分观测结果进行的多步骤交互。

这一交互过程可形式化为部分可观测马尔可夫决策过程（POMDP，Partially Observable Markov Decision Process）：(Q, S, A, O, T)，其中Q为问题空间，S为状态空间，A为行动空间，O为观测空间， $\to S$ 为状态转移函数。需要注意的是，在语言智能体场景中，Q，A，O均为自然语言空间的子空间，且转移函数T由环境决定。

给定一个问题 $\in Q$ 和知识图谱 $G$ ，LLM智能体会基于其策略 $πθ\pi_{\theta}$ 生成行动 $a0∼πθ(⋅∣q,G)∈Aa_{0} \sim \pi_{\theta}(\cdot | q, G) \in A$ 。该行动会引发状态转移，智能体收到执行反馈作为观测 $o0∈Oo_{0} \in O$ 。随后，智能体会继续探索环境，直到找到合适的答案或满足其他停止条件。第 $n$ 步的历史轨迹 $Hn\mathcal{H}_{n}$ 由一系列行动和观测组成，可表示为：
$Hn=(q,G,a0,o0,...,an−1,on−1)∼πθ(Hn∣q,G)πθ(Hn∣q,G)=∏j=1nπθ(aj∣q,G,a0,o0,...,oj−1),(2)\mathcal{H}_{n}=\left(q, \mathcal{G}, a_{0}, o_{0}, ..., a_{n-1}, o_{n-1}\right) \sim \pi_{\theta}\left(\mathcal{H}_{n} | q, \mathcal{G}\right)\\ \pi_{\theta}\left(\mathcal{H}_{n} | q, \mathcal{G}\right)=\prod_{j=1}^{n} \pi_{\theta}\left(a_{j} | q, \mathcal{G}, a_{0}, o_{0}, ..., o_{j-1}\right), (2)$

其中， $n$ 为总交互步数。最后，计算最终奖励 $\mathcal{H}_{n}) \in[0,1]$ ，其中1表示答案正确。

方法

在本节中，将介绍SymAgent，这是一个结合知识图谱（KGs）与大型语言模型（LLMs）以自主解决复杂推理任务的框架。SymAgent包含一个Agent-Planner（智能体规划器）和一个Agent-Executor（智能体执行器），其中Agent-Planner从知识图谱中提取符号规则，用于分解问题和规划推理步骤，Agent-Executor则通过整合反思所得见解和环境反馈来回答问题。为解决标注推理数据缺失的问题，引入了一个自学习框架，通过自主交互实现协同改进。整体架构如图所示。

fig1

SymAgent框架概述。（a）SymAgent中的规划器，其从知识图谱中提取符号规则以指导推理；（b）SymAgent中的执行器，其执行自动行动调用以获取答案；（c）用于迭代增强智能体的自学习框架；（d）合成的行动调用轨迹示例。

Agent-Planner

Agent-Planner 充当高级规划器，借助大型语言模型（LLM）的推理能力将问题分解为可执行的推理链。然而，实际情况是仅通过提示大型语言模型来规划整个推理流程无法取得令人满意的性能。当前的大型语言模型难以将复杂问题与知识图谱（KG）的语义及连接模式对齐，导致生成的推理链粒度较粗，无法有效用于精确的信息检索与整合。

为解决这一局限性，SymAgent利用大型语言模型（LLM）从知识图谱（KG）中识别可能用于回答问题的潜在符号规则，而非生成详细的分步计划：

一方面，已有研究表明，大型语言模型在归纳推理方面表现出色，但在演绎推理方面能力较弱。
另一方面，符号规则本身反映了知识图谱的推理模式，可作为辅助分解复杂问题的隐含信息。通过这种方式，Agent-Planner在自然语言问题与知识图谱的结构信息之间搭建了一座桥梁，从而提高了推理过程的准确性和通用性。

具体而言，给定一个问题 $q$ ，采用BM25算法从训练集中检索出一组种子问题 ${q_{seed_{i}}\}_{i=1}^{k}$ ，其中每个种子问题 $q_{seed}$ 与问题 $q$ 具有相似的问题结构，可能需要类似的解决策略。对于每个种子问题 $q_{seed}$ ，采用广度优先搜索（BFS）在知识图谱 $G$ 中从查询实体 $e_{q}$ 到答案实体 $e_{a}$ 采样一组闭合路径 $P_{i}=\{p_{i_{1}}, p_{i_{2}}, ..., p_{i_{m}}\}$ ，其中 $pij=r1(eq,e1)∧r2(e1,e2)...∧rL(eL−1,ea)p_{i_{j}}=r_{1}(e_{q}, e_{1}) \land r_{2}(e_{1}, e_{2}) ... \land r_{L}(e_{L-1}, e_{a})$ 是一个关系序列。这些闭合路径可被视为回答该问题的符号规则的实例化。随后，我们通过将特定实体替换为变量来对这些闭合路径进行泛化，将其转换为式（1）所示的规则体。

每个种子问题都有一个 $P$ ， $P$ 中每个元素都是一个关系序列，且每个关系序列都是 $e_q$ 到 $e_a$ ，只是关系序列长度不同：

体现了每个问题都有多种不同解法

这一过程构建了少样本演示集 $M = \{(q_{seed_{i}}, P_{i})\}_{i=1}^{k}$ ，以提示SymAgent为问题 $q$ 生成合适的规则体：
$\sim \pi_{\theta}\left(\cdot | \rho_{Plan}, q, \mathcal{M}\right), (3)$
其中， $ρPlan\rho_{Plan}$ 代表用于指导规则体生成的提示词。所生成的与知识图谱对齐的符号规则 $P$ 用于指导SymAgent的全局规划，避免其在推理过程中陷入盲目的试错。

注意：仅靠公式3不能生成规则体，还需要自学习微调

Agent-Executor

基于从知识图谱（KG）中生成的符号规则，Agent-Executor（智能体执行器）采用“观察-思考-行动”的循环范式来推进自主推理过程。与从知识图谱中检索信息（可能引入大量无关数据）的现有方法不同，Agent-Executor借助来自知识图谱结构的专家反馈动态调整推理过程。这种方法使存储着丰富信息性和符号性事实的知识图谱能够与大型语言模型（LLMs）一同深度参与推理过程，而非仅仅被当作静态的信息存储库。

Action空间

鉴于大型语言模型（LLMs）无法直接处理知识图谱（KGs）中的结构化数据，且考虑到在推理过程中需要依赖外部非结构化文档来解决知识图谱信息不完备的问题，SymAgent将智能体的行动空间定义为一组功能工具。通过利用大型语言模型的函数调用能力，SymAgent不仅克服了LLM在处理结构化数据方面的局限性，还为整合多种信息源提供了灵活的机制，从而增强了智能体的推理能力和适应性。该行动空间包含以下功能工具：

𝑔𝑒𝑡𝑅𝑒𝑎𝑠𝑜𝑛𝑖𝑛𝑔𝑃𝑎𝑡ℎ(𝑠𝑢𝑏_𝑞𝑢𝑒𝑠𝑡𝑖𝑜𝑛)：接收子问题作为输入，并返回潜在的符号规则。如公式（3）所示，该行动利用大型语言模型（LLMs）的归纳推理能力，生成与知识图谱（KG）对齐的符号规则，这些规则可对sub_question（子问题）进行分解，从而有效指导推理过程。
𝑤𝑖𝑘𝑖𝑆𝑒𝑎𝑟𝑐ℎ(𝑒𝑛𝑡,𝑟𝑒𝑙)：当知识图谱信息不足时，从维基百科或互联网检索相关文档。
𝑒𝑥𝑡𝑟𝑎𝑐𝑡𝑇𝑟𝑖𝑝𝑙𝑒𝑠(𝑒𝑛𝑡,𝑟𝑒𝑙,𝑑𝑜𝑐)：从检索到的文档中提取与当前查询的实体和关系相关的三元组。值得注意的是，该行动并非由智能体显式调用，而是在调用𝑤𝑖𝑘𝑖𝑆𝑒𝑎𝑟𝑐ℎ之后自动触发。提取出的三元组与知识图谱的语义粒度相匹配，能够整合到知识图谱中，从而助力知识图谱的扩展。
𝑠𝑒𝑎𝑟𝑐ℎ𝑁𝑒𝑖𝑔ℎ𝑏𝑜𝑟(𝑒𝑛𝑡,𝑟𝑒𝑙)：是一个图探索函数。它返回知识图谱中特定实体在给定关系下的邻居，从而实现对相关实体的高效遍历和发现。
$finish(e_{1}, e_{2}, ..., e_{n})$ 返回一个答案实体列表，表示已获取最终答案且推理过程结束。

交互过程

将知识图谱（KG）视为环境，将行动执行的结果视为观测，整个推理过程便成为智能体行动调用与相应观测的序列。采用ReAct风格的方法，在采取行动前生成思维链理由，以此反思环境的当前状态。形式上，对式（2）进行扩展，第 $n$ 步的交互轨迹可进一步表示为：
$Hn=(q,G,p,τ0,a0,o0,...,τn−1,an−1,on−1),(4)\mathcal{H}_{n}=\left(q, \mathcal{G}, p, \tau_{0}, a_{0}, o_{0}, ..., \tau_{n-1}, a_{n-1}, o_{n-1}\right), \quad(4)$
其中， $τ\tau$ 是智能体通过反思历史轨迹产生的内部思考， $a$ 是从上述定义的工具集中选择的行动， $o$ 是执行行动后得到的观测。基于这一历史轨迹，生成后续思考 $τn\tau_{n}$ 和行动 $a_{n}$ 的过程可表述为：
$πθ(τn∣Hn)=∏i=1∣τn∣πθ(τni∣Hn,τn<i),πθ(an∣Hn,τn)=∏j=1∣an∣πθ(anj∣Hn,τn,an<j),\begin{aligned} \pi_{\theta}\left(\tau_{n} | \mathcal{H}_{n}\right) & =\prod_{i=1}^{\left|\tau_{n}\right|} \pi_{\theta}\left(\tau_{n}^{i} | \mathcal{H}_{n}, \tau_{n}^{<i}\right), \\ \pi_{\theta}\left(a_{n} | \mathcal{H}_{n}, \tau_{n}\right) & =\prod_{j=1}^{\left|a_{n}\right|} \pi_{\theta}\left(a_{n}^{j} | \mathcal{H}_{n}, \tau_{n}, a_{n}^{<j}\right), \end{aligned}$
其中， $τni\tau_{n}^{i}$ 和 $∣τn∣|\tau_{n}|$ 分别表示 $τn\tau_{n}$ 的第 $i$ 个token和总长度， $a_{n}^{j}$ 和 $a_{n}|$ 分别表示 $a_{n}$ 的第 $j$ 个token和总长度。智能体循环会持续进行，直到调用 $f ini s h ()$ 行动或达到预定义的最大迭代步数。

自学习

鉴于初始数据集仅包含问答对，而缺乏标注良好的逐步交互数据，这里提出了一种自学习框架。与从更强大的模型（如GPT-4）中提炼推理链的方法不同，自学习使弱策略大型语言模型（LLM） $πθ\pi_{\theta}$ 能够与环境充分交互，从而通过自训练实现改进。该自学习过程主要包括两个阶段：在线探索和离线迭代策略更新。

在线探索

在该阶段，基础智能体 $πθ0\pi_{\theta_{0}}$ 按照“思考-行动-观测”循环与环境自主交互，生成一组初始轨迹 $U0={μ1,μ2,...,μN}U_{0} = \{\mu_{1}, \mu_{2}, ..., \mu_{N}\}$ 。对于每条轨迹 $μi\mu_{i}$ ，采用基于结果的奖励机制，将奖励定义为最终答案的召回率：
$r(μi)=Recall(Aμi,Agt)=∣Aμi∩Agt∣∣Agt∣,r\left(\mu_{i}\right) = \text{Recall}\left(A_{\mu_{i}}, A_{gt}\right) = \frac{\left|A_{\mu_{i}} \cap A_{gt}\right|}{\left|A_{gt}\right|},$
其中， $AμiA_{\mu_{i}}$ 是从轨迹 $μi\mu_{i}$ 的最终行动中提取的答案实体集， $A_{gt}$ 是真实答案实体集。这一过程得到一组自主探索的轨迹 $D0={(μi,r(μi))}i=1ND_{0} = \{(\mu_{i}, r(\mu_{i}))\}_{i=1}^{N}$ 。

为解决智能体行动调用中可能存在的错误（例如，工具调用格式不正确）——这类错误可能会降低探索效果，利用大型语言模型（LLM）的自我反思能力来优化轨迹。以 $D_{0}$ 为参考，策略大型语言模型 $πθ0\pi_{\theta_{0}}$ 重新生成新的优化轨迹，表述为 ${μ^i}i=1N∼πθ0(⋅∣μi,r(μi))\{\hat{\mu}_{i}\}_{i=1}^{N} \sim \pi_{\theta_{0}}(\cdot | \mu_{i}, r(\mu_{i}))$ 。应用相同的奖励机制后，我们可得到一个优化后的轨迹集合 $D0^={(μ^i,r(μ^i))}i=1N\widehat{D_{0}} = \{(\hat{\mu}_{i}, r(\hat{\mu}_{i}))\}_{i=1}^{N}$ 。

经过自主探索和自我反思后，我们得到了两个规模相同的轨迹集合： $D_{0}$ 和 $D0^\widehat{D_{0}}$ 。为提高候选轨迹的质量，我们采用一种启发式方法对这两个集合进行合并，从而得到一个优化后的轨迹集。依据最终答案一致性原则，我们得到合并后的轨迹集合 $D0∗={(μi∗,r(μi∗))}i=1ND_{0}^{*} = \{(\mu_{i}^{*}, r(\mu_{i}^{*}))\}_{i=1}^{N}$ ：

$r(μi)>r(μi^),(μ^i,r(μi^)),若 r(μi)<r(μi^),(t,r(t)),若 r(μi)=r(μi^)>0,filtered,若 r(μi)=r(μi^)=0.(7)\mathcal{D}_{0}^{*}(i)=\left\{ \begin{array}{ll} \left(\mu_{i}, r\left(\mu_{i}\right)\right), & 若\ r\left(\mu_{i}\right) > r\left(\hat{\mu_{i}}\right), \\ \left(\hat{\mu}_{i}, r\left(\hat{\mu_{i}}\right)\right), & 若\ r\left(\mu_{i}\right) < r\left(\hat{\mu_{i}}\right), \\ (t, r(t)), & 若\ r\left(\mu_{i}\right) = r\left(\hat{\mu_{i}}\right) > 0, \\ filtered, & 若\ r\left(\mu_{i}\right) = r\left(\hat{\mu_{i}}\right) = 0. \end{array} \right. (7)$
在该方程中， $t=arg⁡min⁡s∈{μi,μ^i}∣s∣t = \arg\min_{s \in \{\mu_{i}, \hat{\mu}_{i}\}} \vert s\vert$ 表示：当奖励相等且不为零时，我们选择长度更短的轨迹。

离线迭代策略更新

给定合并后的轨迹 $D^{*}$ ，一种提升智能体性能的直观方法是利用这些轨迹进行微调。在自回归方式下，智能体模型的损失可表示为：
$LSFT=−Eμ∼D∗[πθ(μ∣q)],πθ(μ∣q)=−∑j=1∣X∣(1(xj∈A)×log⁡πθ(xj∣q,x<j)),\mathcal{L}_{SFT} = -\mathbb{E}_{\mu \sim \mathcal{D}^{*}} \left[ \pi_{\theta}(\mu | q) \right],\\ \pi_{\theta}(\mu | q) = -\sum_{j=1}^{|X|} \left( \mathbb{1}(x_{j} \in \mathcal{A}) \times \log \pi_{\theta}(x_{j} | q, x_{<j}) \right),$
其中， $1(xj∈A)\mathbb{1}(x_{j} \in \mathcal{A})$ 是一个指示函数，用于判断 $x_{j}$ 是否为智能体生成的思维或行动中的token。