当前位置：首页 > news >正文

【LLM】知识图谱和LLM的结合

news 2025/10/9 8:03:21

note

文章目录

note
一、知识图谱的构建
- 1、金融领域
- 2、医疗领域
- 3、谷歌开源知识图谱构建工具langextract
二、知识图谱用于Agent记忆管理
- 1、以事件为中心的记忆图
三、用于Agent调用工具数据合成
- 1、[输入-工具功能-输出]数据合成
- 2、通义deepresearch
四、和多模态结合
五、和RAG结合

一、知识图谱的构建

1、金融领域

【金融领域知识图谱构建进展】FinKario: Event-Enhanced Automated Construction of Financial Knowledge Graph，https://arxiv.org/pdf/2508.00961，FinKario：事件增强型金融知识图谱与检索框架，核心看知识图谱构建思路：从东方财富网收集研报（2024.8-2025.2），用 MinerU 工具转标准化 Markdown（去除免责声明、图片、重复法律声明等冗余内容，保留核心文本）->基于专业模板引导 LLM 生成属性与事件的 schema（属性 schema：参考 CFA 手册、JPM 模板，含 11 种关系（如股票代码、目标价），事件 schema：威斯康星模板提取高层类别（如战略行动），结合 FIBO 细化本体）->LLM 按 schema 从研报中提取实体、关系，生成时序化图谱（按时间戳提取实体（属性实体事件实体），整合为单股票图谱）->实体归一化、属性补全、错误修正（实体归一化：统一名称变体（如 “BYD Inc.”→“BYD”）+属性补全，调用 Tushare 平台补充缺失数值（如股价单位）+错误修正，LLM 重新提取占位符内容（如 “无相关信息”））。

尤其是其中的schema自动生成的过程，是我们做知识图谱常遇到的问题，基于llm做目前是可以做辅助的；

2、医疗领域

进而，第二个也是类似的思路，MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework,https://github.com/AQ-MedAI/MedResearcher-R1,https://arxiv.org/abs/2508.14880,https://huggingface.co/AQ-MedAI/MedResearcher-R1-32B，医学DeepResearch agent，构造医疗领域的多跳推理数据，其核心的核心也是数据合成，通过医学知识图谱生成复杂的多跳问答对，<Question, Reasoning, Answer>。这个可以借鉴。思路是：获取初始化实体，1）从超过3000万篇PubMed摘要中提取医学实体，然后，筛选罕见实体，通过频率分析，找出在医学文献中出现频率低于10⁻⁶的医学实体。假设是，这些实体非常罕见，但可能在临床上很重要。最后，人工筛选+LLM辅助评估，过滤掉那些可能是拼写错误或过于常见的实体，确保选出的实体既罕见又具有临床意义->2）构建图谱，以这些罕见医学实体为中心，例如，构建知识图谱子图，子图包含了与罕见实体相关的其他医学概念和关系，这个过程是迭代构建，逐步扩展，每次扩展时，会随机选择邻居节点或通过私有医学检索引擎发现新的实体。-> 3)生成最长推理链。对于每个罕见实体的子图，计算最长的推理路径【先算连通图，然后最长路径采样】，然后路径随后被转化为自然语言问题，生成的问题需要多个推理步骤（平均4.2步），这里的answer也是已知，question 和reason_path同步输出来。

3、谷歌开源知识图谱构建工具langextract

文档结构化进展，谷歌开源知识图谱构建工具langextract，https://github.com/google/langextract，根据用户定义的指令从非结构化文本文档中提取结构化信息。将每次提取映射到源文本的确切位置，支持可视化高亮显示，便于轻松追溯和验证。可以即时生成一个自包含的交互式 HTML 文件，用于在原始上下文中可视化和审阅数据。支持fewshot少量示例，强制执行一致的输出模式。但是，准确性及其对任务规范的遵循程度取决于所选的 LLM、任务的复杂性、提示指令的清晰度以及提示示例。

二、知识图谱用于Agent记忆管理

1、以事件为中心的记忆图

【知识图谱用于Agent记忆管理】还有个工作《Bridging Intuitive Associations and Deliberate Recall: Empowering LLM Personal Assistant with Graph-Structured Long-term Memory》(https://aclanthology.org/2025.findings-acl.901.pdf)，搞了个以事件为中心的记忆图（Memory Graph），核心在于图谱的构建，设计为4类核心节点，其中实体节点涵盖9个子类别：utterance【对话轮次中的用户/助手utterance】、用户相关事件【用户参与的具体事件（如“运行Facebook广告”）】、实体【9类：Object、Person/User/Organization、Resource、Place、Event、Goal/Intention、Time、Interest/Skill、Sentiment】、事件时间【事件发生的具体绝对时间（非模糊表述）】；6种语义边，用于连接节点并表达逻辑关系：eventoccurat【事件发生的时间，由utterance时间戳推断】、eventfact【事件的事实信息来源于某utterance】、eventinclude【事件包含的相关实体】、include【utterance与事件中的实体直接关联】、ask【用户发起的utterance】、relation【实体间的动作、状态关系（如“occurat”“feel”）】

三、用于Agent调用工具数据合成

1、[输入-工具功能-输出]数据合成

【知识图谱用于Agent调用工具数据合成】利用知识图谱来合成指令数据提升LLM工具使用能力，《Enhancing LLM Tool Use with High-quality Instruction Data from Knowledge Graph》，https://arxiv.org/pdf/2506.21071，这里的底层逻辑是，KG是人工筛选的结构化数据，以“实体-关系-实体”三元组存储语义信息，可天然映射为“输入-工具功能-输出”的工具使用逻辑，且能通过子图提取生成复杂推理场景，最终生成了KG2Tool的数据集。看最后结论，这个故事很清晰，将KG作为指令数据的“事实源头”，通过FOL与API的强绑定，确保“查询-解决方案”的逻辑与事实双正确，但是这对知识图谱本身是有较高要求的，其使用了FB15k数据，但用在领域图谱上，则需要保证图谱质量。如果KG本身实体少、关系单一（比如只有100个实体），生成的数据多样性不足，效果会大打折扣。

2、通义deepresearch

在这里插入图片描述

四、和多模态结合

知识图谱与多模态生成结合。基于图结构的图像描述生成，将图像区域描述通过图结构连接，提升描述的完整性和逻辑性。 Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions： https://github.com/apple/ml-gbc

五、和RAG结合

RAG进展。RAG用于图像生成，Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG，https://arxiv.org/pdf/2412.09614，提出基于知识图谱的检索增强生成（RAG）框架，称为Context Canvas，用于解决T2I模型在生成复杂和文化特定概念时的局限性。

查看全文

http://www.dtcms.com/a/457640.html