当前位置: 首页 > news >正文

【LLM】知识图谱和LLM的结合

note

文章目录

  • note
  • 一、知识图谱的构建
    • 1、金融领域
    • 2、医疗领域
    • 3、谷歌开源知识图谱构建工具langextract
  • 二、知识图谱用于Agent记忆管理
    • 1、以事件为中心的记忆图
  • 三、用于Agent调用工具数据合成
    • 1、[输入-工具功能-输出]数据合成
    • 2、通义deepresearch
  • 四、和多模态结合
  • 五、和RAG结合

一、知识图谱的构建

1、金融领域

【金融领域知识图谱构建进展】FinKario: Event-Enhanced Automated Construction of Financial Knowledge Graph,https://arxiv.org/pdf/2508.00961,FinKario:事件增强型金融知识图谱与检索框架,核心看知识图谱构建思路:从东方财富网收集研报(2024.8-2025.2),用 MinerU 工具转标准化 Markdown(去除免责声明、图片、重复法律声明等冗余内容,保留核心文本)->基于专业模板引导 LLM 生成属性与事件的 schema( 属性 schema:参考 CFA 手册、JPM 模板,含 11 种关系(如股票代码、目标价),事件 schema:威斯康星模板提取高层类别(如战略行动),结合 FIBO 细化本体)->LLM 按 schema 从研报中提取实体、关系,生成时序化图谱(按时间戳提取实体(属性实体事件实体),整合为单股票图谱)->实体归一化、属性补全、错误修正(实体归一化:统一名称变体(如 “BYD Inc.”→“BYD”)+属性补全,调用 Tushare 平台补充缺失数值(如股价单位)+错误修正,LLM 重新提取占位符内容(如 “无相关信息”))。

尤其是其中的schema自动生成的过程,是我们做知识图谱常遇到的问题,基于llm做目前是可以做辅助的;

2、医疗领域

进而,第二个也是类似的思路,MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework,https://github.com/AQ-MedAI/MedResearcher-R1,https://arxiv.org/abs/2508.14880,https://huggingface.co/AQ-MedAI/MedResearcher-R1-32B,医学DeepResearch agent,构造医疗领域的多跳推理数据,其核心的核心也是数据合成,通过医学知识图谱生成复杂的多跳问答对,<Question, Reasoning, Answer>。这个可以借鉴。思路是:获取初始化实体,1)从超过3000万篇PubMed摘要中提取医学实体,然后,筛选罕见实体,通过频率分析,找出在医学文献中出现频率低于10⁻⁶的医学实体。假设是,这些实体非常罕见,但可能在临床上很重要。最后,人工筛选+LLM辅助评估,过滤掉那些可能是拼写错误或过于常见的实体,确保选出的实体既罕见又具有临床意义->2)构建图谱,以这些罕见医学实体为中心,例如,构建知识图谱子图,子图包含了与罕见实体相关的其他医学概念和关系,这个过程是迭代构建,逐步扩展,每次扩展时,会随机选择邻居节点或通过私有医学检索引擎发现新的实体。-> 3)生成最长推理链。对于每个罕见实体的子图,计算最长的推理路径【先算连通图,然后最长路径采样】,然后路径随后被转化为自然语言问题,生成的问题需要多个推理步骤(平均4.2步),这里的answer也是已知,question 和reason_path同步输出来。

3、谷歌开源知识图谱构建工具langextract

文档结构化进展,谷歌开源知识图谱构建工具langextract,https://github.com/google/langextract,根据用户定义的指令从非结构化文本文档中提取结构化信息。将每次提取映射到源文本的确切位置,支持可视化高亮显示,便于轻松追溯和验证。可以即时生成一个自包含的交互式 HTML 文件,用于在原始上下文中可视化和审阅数据。支持fewshot少量示例,强制执行一致的输出模式。但是,准确性及其对任务规范的遵循程度取决于所选的 LLM、任务的复杂性、提示指令的清晰度以及提示示例。

二、知识图谱用于Agent记忆管理

1、以事件为中心的记忆图

【知识图谱用于Agent记忆管理】还有个工作《Bridging Intuitive Associations and Deliberate Recall: Empowering LLM Personal Assistant with Graph-Structured Long-term Memory》(https://aclanthology.org/2025.findings-acl.901.pdf),搞了个以事件为中心的记忆图(Memory Graph),核心在于图谱的构建,设计为4类核心节点,其中实体节点涵盖9个子类别:utterance【对话轮次中的用户/助手utterance】、用户相关事件【用户参与的具体事件(如“运行Facebook广告”)】、实体【9类:Object、Person/User/Organization、Resource、Place、Event、Goal/Intention、Time、Interest/Skill、Sentiment】、事件时间【事件发生的具体绝对时间(非模糊表述)】;6种语义边,用于连接节点并表达逻辑关系:eventoccurat【事件发生的时间,由utterance时间戳推断】、eventfact【事件的事实信息来源于某utterance】、eventinclude【事件包含的相关实体】、include【utterance与事件中的实体直接关联】、ask【用户发起的utterance】、relation【实体间的动作、状态关系(如“occurat”“feel”)】

三、用于Agent调用工具数据合成

1、[输入-工具功能-输出]数据合成

【知识图谱用于Agent调用工具数据合成】利用知识图谱来合成指令数据提升LLM工具使用能力,《Enhancing LLM Tool Use with High-quality Instruction Data from Knowledge Graph》,https://arxiv.org/pdf/2506.21071,这里的底层逻辑是,KG是人工筛选的结构化数据,以“实体-关系-实体”三元组存储语义信息,可天然映射为“输入-工具功能-输出”的工具使用逻辑,且能通过子图提取生成复杂推理场景,最终生成了KG2Tool的数据集。看最后结论,这个故事很清晰,将KG作为指令数据的“事实源头”,通过FOL与API的强绑定,确保“查询-解决方案”的逻辑与事实双正确,但是这对知识图谱本身是有较高要求的,其使用了FB15k数据,但用在领域图谱上,则需要保证图谱质量。如果KG本身实体少、关系单一(比如只有100个实体),生成的数据多样性不足,效果会大打折扣。

2、通义deepresearch

在这里插入图片描述

四、和多模态结合

知识图谱与多模态生成结合。基于图结构的图像描述生成,将图像区域描述通过图结构连接,提升描述的完整性和逻辑性。 Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions: https://github.com/apple/ml-gbc

五、和RAG结合

RAG进展。RAG用于图像生成,Context Canvas: Enhancing Text-to-Image Diffusion Models with Knowledge Graph-Based RAG,https://arxiv.org/pdf/2412.09614,提出基于知识图谱的检索增强生成(RAG)框架,称为Context Canvas,用于解决T2I模型在生成复杂和文化特定概念时的局限性。

http://www.dtcms.com/a/457640.html

相关文章:

  • 扩散模型DDPM数学推导过程完整版(下)
  • 重庆网站建设入门培训扬州电商网站建设
  • 做国际网站有什么需要注意的福州网站建设吧
  • Echarts极坐标系示例
  • HarmonyOS应用开发深度解析:ArkTS语法精要与状态管理实践
  • 园林景观中企动力提供网站建设网店代理货源网
  • 酒店网站建设建设网站ppt
  • docker学习笔记详记
  • 可做外链的视频网站企业建一个网站
  • 滑动窗口专题总结:从懵逼到掌握valid计数器
  • 深圳市盐田区建设局网站WordPress制作安卓
  • Next.js useState useEffect useRef 速记
  • 图论算法刷题的第五十一天
  • Linux自动化构建工具make/Makefile及Linux下的第一个程序—进度条
  • Vue使用原生方式把视频当作背景
  • 铜陵app网站做招聘信息wordpress第一篇文章id
  • 从玩具到工业:基于 CodeBuddy code CLI 构建电力变压器绕组短路智能诊断系统
  • wordpress 中英文网站模板手机创建网页
  • 基于 GEE 的 Sentinel-2 光谱、指数、纹理特征提取与 Sentinel-1 SAR 数据处理
  • 嘉兴网站排名优化价格windows 安装 wordpress
  • 2-C语言中的数据类型
  • 免费企业营销网站制作公司建网站有何意义
  • LeetCode算法日记 - Day 66: 衣橱整理、斐波那契数(含记忆化递归与动态规划总结)
  • 建行官方网站网站模块数据同步
  • HTTP 协议的基本格式
  • 【代码】洛谷 P6150 [USACO20FEB] Clock Tree S [思维]
  • 专业做网站的公司哪家好西宁网站建设公司
  • 信息安全基础知识:06认证技术
  • 哪一个网站做专栏作家好点橙色企业网站模板
  • 【区间DP】戳气球 题解