突破AI助手成本壁垒:知识图谱思维架构让小模型实现大性能

Affordable AI Assistants with Knowledge Graph of Thoughts
https://github.com/spcl/knowledge-graph-of-thoughts
原文链接:https://t.zsxq.com/N3EAM
文章摘要
苏黎世联邦理工学院等机构提出知识图谱思维(KGoT)架构,通过动态构建知识图谱来增强小型语言模型的推理能力。该方案在GAIA基准测试中相比现有方案提升29%任务成功率,同时运营成本降低36倍以上,为AI助手的规模化应用提供了经济可行的解决方案。
引言:AI助手的成本困境
大语言模型(LLMs)正在revolutionize整个世界,但其训练成本高昂、耗时且资源密集。为了普及生成式AI的访问,代理系统的生态在过去两年中发生了巨大变化。这些系统已被应用于推理、规划、软件开发等众多任务中。
在LLM代理最具影响力的应用中,开发能够帮助处理各种任务的AI助手尤为重要。这些助手有望成为多功能工具,提升各领域的生产力和决策能力。
然而,当前最先进的LLM驱动代理面临着显著挑战:
- 高运营成本
:使用Hugging Face Agents和GPT-4o运行所有验证任务成本约200美元
- 复杂基准测试成功率有限
:在GAIA等复杂基准测试上表现不佳
- 小型模型能力不足
:GPT-4o mini等较小模型虽然显著降低了成本,但任务成功率急剧下降
KGoT将文本任务转换为知识图谱的核心思想
核心创新:知识图谱思维(KGoT)架构
针对上述挑战,研究团队提出了知识图谱思维(KGoT)架构,这是一种创新的AI助手架构,它将LLM推理与动态构建的知识图谱相结合。
什么是知识图谱?
知识图谱(KG)是一种结构化的信息表示方式,将知识组织成基于图的格式,支持高效查询、推理和检索。形式上,KG由一组三元组组成,每个三元组(s, p, o)表示两个实体s(主语)和o(宾语)通过谓词p的关系。
例如,三元组("地球", "绕轨道运行", "太阳")捕获了地球绕太阳运行的事实。数学上,知识图谱可以定义为有向标记图G = (V, E, L),其中V是顶点集合(实体),E ⊆ V × V是边集合(关系),L是分配给边的标签集合(谓词)。
KGoT的核心理念
KGoT的核心在于将任务解决状态转换为不断演化的知识图谱。KG表示由LLM生成的"思考"构建而来,这些"思考"是LLM在解决问题过程中识别的中间洞察。
以GAIA基准测试中的一个3级(最高难度)任务为例:"在2018年3月由《指环王》咕噜姆配音演员解说的YouTube 360 VR视频中,恐龙首次出现后解说员直接提到的数字是什么?"
在这个例子中,任务解决状态的KG表示包含一个顶点"咕噜姆(指环王)"。然后,思考"《指环王》中的咕噜姆由安迪·瑟金斯配音"导致添加"安迪·瑟金斯"顶点,并用谓词"配音"将"咕噜姆(指环王)"与"安迪·瑟金斯"连接。
信息提取方法
为了适应不同任务,KGoT支持多种从KG中提取信息的方式:
- 图查询语言
:使用Cypher或SPARQL等语言准备的图查询来从图中提取任务答案
- 通用编程语言
:使用Python等通用编程语言准备的脚本
- 直接检索
:在某些情况下,将KG直接粘贴到LLM上下文中并要求LLM解决任务
这些方案在准确性、成本和运行时间之间提供了权衡。
多种KG表示
KGoT可以构建三种可互操作的KG表示:
- 属性图
:与Cypher和Neo4j等系统一起使用
- RDF图
:与SPARQL和RDF4J等系统一起使用
- 邻接列表图
:与Python和NetworkX等系统一起使用

KGoT的系统架构概览和工作流程详细设计
系统架构:模块化与可扩展设计
KGoT采用模块化和灵活的架构,由三个主要组件组成:
1. 图存储模块(Graph Store Module)
图存储模块管理动态演化知识图谱的存储和检索,该图谱表示任务状态。为了利用图查询,系统使用图数据库后端,当前实现中测试了Cypher配合Neo4j以及SPARQL配合RDF4J后端。
2. 控制器模块(Controller)
控制器协调KG和工具之间的交互。它采用双LLM架构,角色分工明确:
- LLM图执行器
:构建和演化KG,确定每次迭代后的下一步骤
- LLM工具执行器
:管理工具选择和执行,作为LLM图执行器制定计划的执行者
3. 集成工具套件
KGoT提供分层的工具套件,满足多样化任务需求:
- Python代码工具
:支持动态脚本生成和复杂计算执行
- LLM工具
:集成辅助语言模型,增强知识访问
- 图像工具
:支持多模态输入的图像处理和提取
- 网页代理
:基于Hugging Face Agents设计,包含Wikipedia工具、导航工具等
- 其他专用工具
:ExtractZip工具、文本检查器工具等
性能优化与系统鲁棒性
高性能与可扩展性优化
系统采用多项优化策略:
- 异步执行
:使用asyncio并行化LLM工具调用
- 图操作并行性
:重新表述LLM生成的Cypher查询以支持独立操作的并发执行
- 基于MPI的分布式处理
:将工作负载分解为原子任务
系统鲁棒性保障
通过两种已验证的机制确保鲁棒性:
- 自一致性(Self-Consistency)
:通过多数投票机制
- LLM作为评判者(LLM-as-a-Judge)
:直接使用LLM代理基于生成的推理链做出决策
分层错误管理
系统包含完善的错误处理机制:
- LLM生成的语法错误
:使用LangChain的JSON解析器检测语法问题
- API和系统相关错误
:采用指数退避策略
- Python执行器工具
:容器化设计确保安全执行LLM生成的代码
评估结果:显著的性能提升
GAIA基准测试结果
在GAIA验证数据集上的评估结果显示了KGoT的显著优势:

KGoT与其他最先进开源代理在完整GAIA测试集上的比较
- 任务成功率
:KGoT融合版本解决71个任务,相比Hugging Face Agents提升超过2倍
- 成本效益
:使用GPT-4o mini的运营成本从187美元降至约5美元,降幅超过36倍
- 性能对比
:KGoT实现29%的任务成功率提升,相比使用GPT-4o mini的Hugging Face Agents

展示不同KGoT变体相对于其他基线的优势
知识提取方法分析
不同的知识提取方法具有互补的优势和劣势:
- Neo4j + Cypher
:擅长模式计数等查询,但生成正确的Cypher查询可能困难
- NetworkX + Python
:通过消除对独立数据库服务器的需求提供轻量级选择
- 直接检索
:在提取分散信息方面表现出色,但在结构化多步推理方面表现较差

SimpleQA基准测试结果
在SimpleQA基准测试上,KGoT同样表现出色:
- 准确率
:73.21%,优于HF Agents的66.05%和GPTSwarm的53.81%
- 成本效率
:每个已解决任务仅需0.018美元,不到HF Agents成本的三分之一
- F1得分
:71.06%,显著超越顶级推理模型的49.4%成绩
技术实现与部署
容器化部署
KGoT采用Docker和Sarus进行容器化,为所有组件提供一致且隔离的运行时环境。Docker提供广泛采用的本地和云部署容器化平台,而Sarus专为高性能计算(HPC)环境设计,扩展了KGoT在HPC设置中的可移植性。
开源生态集成
系统充分利用LangChain开源框架,该框架专门设计用于创建和编排LLM驱动的应用程序。LangChain提供了全面的工具和API套件,简化了管理LLM的复杂性。
相关工作对比与技术优势
与现有方案的对比
相比其他AI代理架构,KGoT具有显著优势:
- 相比传统RAG方案
:简单RAG解决35个任务且成本更高,GraphRAG仅解决23个任务且成本更高
- 相比多代理系统
:GPTSwarm解决26个任务,Magentic-One解决31个任务,均低于KGoT
- 相比零样本方法
:GPT-4o mini零样本仅解决17个任务,GPT-4o零样本解决29个任务
技术创新点
KGoT的主要技术创新包括:
- 结构化知识表示
:将非结构化数据转换为结构化KG三元组
- 动态图演化
:通过工具交互迭代增强KG
- 多模态查询支持
:支持图查询语言和通用编程语言
- 成本效益优化
:使小型模型达到大型模型的性能水平
论文评价
优点与创新
-
显著降低任务执行成本:KGoT通过使用知识图谱(KG)来表示任务相关的知识,显著降低了任务执行的成本。与Hugging Face Agents和GPT-4o相比,KGoT的运行成本降低了超过36倍。
-
提高任务成功率:KGoT在GAIA基准测试中实现了29%的任务成功率提升。与其他模型(如Qwen2.5-32B和Deepseek-R1-70B)和基准测试(如SimpleQA)相比,改进效果类似。
-
可扩展性和灵活性:KGoT提供了一个可扩展、经济实惠、多功能且高性能的AI助手解决方案。其模块化设计使其能够扩展到需要复杂多步推理和与外部计算环境广泛交互的新领域。
-
减少噪声和偏差:通过将推理过程外部化到显式的知识图谱中,KGoT减少了噪声,同时最小化了偏差并提高了公平性。这确保了在解决任务时的关键步骤具有透明性、可解释性和可审计性。
-
多种知识提取方法:KGoT支持不同的知识提取方法,包括图查询语言和通用编程语言。这些方法在不同情况下具有互补的优势,提供了灵活性和高效性。
-
异步执行和并行处理:KGoT采用了异步执行和并行处理技术,显著提高了系统的性能和可扩展性。
-
错误管理和日志记录:KGoT集成了全面的错误管理和日志记录系统,确保系统在遇到错误时能够恢复并继续运行。
不足与反思
-
下一步工作:论文提到未来的研究方向包括支持多阶段、成本效益高的推理,例如增强最近推理模型(如DeepSeek-R1)的能力。此外,扩展KGoT以支持其他领域,如自动化科学发现或软件设计,也是未来的研究方向。
-
工具集优化:尽管已经整合了Hugging Face Agents的工具集,但进一步优化工具集以提高准确性和效率仍然是未来的工作之一。
-
更复杂的任务分解方案:探索更高级的任务分解方案可能会进一步提高KGoT在非常长的时间范围内任务的性能。
关键问题及回答
问题1:KGoT在构建知识图谱时,如何处理和整合来自外部工具的信息?
KGoT通过迭代的方式构建知识图谱,并在必要时使用外部工具收集相关信息。具体步骤如下:
-
初始知识图谱构建:从任务声明开始,LLM生成初步的知识图谱,通常以三元组(s,p,o)的形式表示实体s和实体o之间的关系,并通过谓词p连接。
-
迭代增强:KGoT使用外部工具(如数学求解器、网络爬虫和Python脚本)来获取更多信息,并将其添加到知识图谱中。例如,系统可能会查询互联网以识别由特定演员叙述的视频,或使用YouTube转录工具找到视频的发布日期。
-
图存储:构建的KG存储在图存储中,作为结构化知识的库。LLM可以通过直接嵌入KG或查询图存储来解决问题。
-
错误处理和噪声减少:在整合外部工具的信息时,KGoT会进行噪声减少和错误检查,确保新加入的三元组信息质量高且无冗余。
问题2:KGoT在实验中如何验证其有效性和效率?
-
数据集:实验使用了GAIA基准测试和SimpleQA数据集。GAIA基准测试包括165个任务,分为三个难度级别(L1、L2、L3)。SimpleQA数据集包含4326个问题,从中抽取了10%的任务进行评估。
-
对比基准:实验对比了Hugging Face Agents(HF Agents)、GPTSwarm和Magentic-One等现有方法。此外,还评估了检索增强生成(RAG)方法和零样本方法。
-
性能指标:主要评估指标包括解决任务的数量和任务解决的成功率。实验结果显示,KGoT在GAIA验证集上解决了比HF Agents多2倍以上的任务,成本比HF Agents低42%到62%。
-
通用性和可扩展性:KGoT在其他模型(如Qwen2.5-32B和Deepseek-R1-70B)和其他基准(如SimpleQA)上也表现出色,显示出其通用性和可扩展性。
问题3:KGoT在减少噪声和最小化偏差方面有哪些创新?
-
外部化推理过程:KGoT通过将推理过程外部化到显式的知识图谱中,减少了噪声和偏差。具体来说,每次工具输出和LLM生成的“想法”都被转换为三元组并存储在知识图谱中。
-
透明性和可解释性:这种显式知识图谱的表示方式确保了关键步骤的透明性和可解释性,便于识别和纠正有偏差的推理步骤。
-
噪声减少:新加入的三元组信息会在集成到知识图谱之前进行质量检查,确保其信息内容丰富且准确。现有的三元组如果被认为是冗余的,也会被移除。
-
公平性提升:通过减少内部生成的偏差和噪声,KGoT提高了整体系统的公平性,使得决策过程更加公正和无偏见。
未来发展方向
研究团队指出了几个有前景的发展方向:
- 支持多阶段推理
:增强如DeepSeek-R1等推理模型的能力
- 预测图模型集成
:通过预测图模型扩展KGoT
- 神经图数据库集成
:与神经图数据库的整合
- 分布式内存集群部署
:提升可扩展性
- 高级任务分解策略
:改善超长期任务的性能
结论与展望
知识图谱思维(KGoT)架构为AI助手领域带来了革命性突破。通过动态构建和演化编码任务及其解决状态的知识图谱,KGoT在显著降低运营成本的同时增强了低成本模型的推理能力。


在GAIA和SimpleQA等基准测试上的广泛评估表明,KGoT优于现有的基于LLM的代理解决方案,实现了29%或更高的任务解决效率提升,同时确保成本降低36倍以上。
得益于其模块化设计,KGoT可以扩展到需要复杂多步推理与外部计算环境广泛交互的新领域,例如自动科学发现或软件设计。这为AI助手的规模化应用和商业化部署提供了经济可行的解决方案,有望推动人工智能技术在企业和科研机构中的更广泛应用。
标签
#知识图谱 #GraphRAG #LLM #大模型 #KnowledgeGraph #AIAgents #Graphrag #kgot
欢迎加入「知识图谱增强大模型产学研」知识星球,获取最新产学研相关"知识图谱+大模型"相关论文、政府企业落地案例、避坑指南、电子书、文章等,行业重点是医疗护理、医药大健康、工业能源制造领域,也会跟踪AI4S科学研究相关内容,以及Palantir、OpenAI、微软、Writer、Glean、OpenEvidence等相关公司进展。
