腾讯开源Youtu-GraphRAG
Youtu-GraphRAG:垂直统一的图增强复杂推理新范式
重新定义图检索增强推理范式,以97%的Token成本节约和16.62%的精度提升实现帕累托改进*
项目简介
Youtu-GraphRAG 是一个基于图Schema实现垂直统一的图增强推理范式,将GraphRAG框架精巧地集成为一个以智能体为核心的有机整体。实现了通过在图Schema上的最小化人为干预下进行跨领域的无缝迁移,为业界应用提供了泛化、鲁棒、可用的下一代GraphRAG范式。
Youtu-GraphRAG三大落地场景
🔗 多跳推理与总结:解决需要多步推理的复杂问题
📚 知识密集型任务:处理依赖大量结构化知识的问题
🌐 跨域扩展:轻松支持学术论文、个人知识库、私域/企业知识库等多个领域,Schema人工干预最少化
框架架构
交互式体验界面
核心贡献与创新亮点
基于统一的图检索增强生成智能体范式,Youtu-GraphRAG引入了多项关键创新,这些创新共同构建了一个精密集成的完整框架:
1. Schema引导的层次化知识树构建- 🌱 种子图Schema:通过引入有针对性的实体类型、关系类型和属性类型,为自动化提取智能体提供精确约束
- 📈 可扩展Schema演进:支持动态扩展Schema,实现了跨领域知识的自主演化和高质量抽取
- 🏢 四层架构设计:
- 第1层(属性层):存储实体的属性信息
- 第2层(关系层):构建实体间的关系三元组
- 第3层(关键词层):建立关键词索引体系
- 第4层(社区层):形成层次化的社区结构
- ⚡ 业界应用快速适配:在Schema最小化人为干预的前提下,实现跨领域快速部署
- 🔬 创新社区检测算法设计:巧妙融合结构拓扑特征与子图语义信息,构建全面的知识组织体系,在复杂网络中提炼高维度知识加强推理总结能力,社区生成效果显著优于传统Leiden和Louvain算法
- 📊 层次化知识树:自然生成既支持自顶向下过滤又支持自底向上推理的结构
- 📝 智能社区摘要:利用大语言模型增强社区摘要生成,实现更高层次的知识抽象
- 🎯 Schema感知的复杂问题分解:深度理解图Schema结构,将复杂查询针对性智能转换为可并行处理的子查询
- 🔄 迭代反思机制:通过迭代检索思维链进一步实现深度反思,显著提升推理能力
- 🎯 性能全面优化:通过精心设计的提示策略、索引机制和检索算法,同时降低Token消耗并提升回答精度
- 🤹♀️ 用户体验友好:
output/graphs/
四层知识树结构支持neo4j直接导入可视化,知识归纳、推理路径对用户直接可见 - ⚡ 并行子问题处理:采用并发机制处理分解后的问题,在复杂场景下仍能保持高效运行
- 🤔 迭代推理演进:逐步构建答案,并提供清晰的推理轨迹,增强结果可解释性
- 📊 企业级扩展性:专为私域及企业级部署而设计,新领域接入时人工干预降到最低
- Link: Hugging Face AnonyRAG
- 有效防范大语言模型和嵌入模型预训练过程中的知识泄露问题
- 深度测试GraphRAG在真实场景下的检索性能表现
- 提供中英文双语版本,支持多语言研究
- 🎛️ 集中化参数管理:所有组件均可通过单一YAML文件进行统一配置
- 🔧 运行时动态调整:支持在程序执行过程中动态修改配置参数
- 🌍 多环境无缝支持:在图Schema最小人为干预的前提下,轻松实现跨领域迁移
- 🔄 完善向后兼容:确保现有代码在框架升级后仍能正常运行
实验表现
在GraphRAG-Bench、HotpotQA和MuSiQue等六个专业跨领域多语言的基准数据集上进行了广泛实验,充分证明了Youtu-GraphRAG的企业级扩展性和泛化性。相比最先进的基线方法,Youtu-GraphRAG显著推动了帕累托前沿突破,实现了最高90.71%的Token成本节约和16.62%的精度提升。实验结果充分展现框架的卓越泛化性,能够在Schema干预最小化的前提下实现跨领域的无缝迁移。
项目结构
youtu-graphrag/
├── 📁 config/ # 配置系统
│ ├── base_config.yaml # 主配置文件
│ ├── config_loader.py # 配置加载器
│ └── __init__.py # 配置模块接口
│
├── 📁 data/ # 数据目录
│
├── 📁 models/ # 核心模型
│ ├── 📁 constructor/ # 知识图谱构建模块
│ │ └── kt_gen.py # KTBuilder - 层次化图构建器
│ ├── 📁 retriever/ # 检索模块
│ │ ├── enhanced_kt_retriever.py # KTRetriever - 主检索器
│ │ ├── agentic_decomposer.py # 复杂查询解耦
│ └── └── faiss_filter.py # DualFAISSRetriever - FAISS检索器
│
├── 📁 utils/ # 工具模块
│ ├── tree_comm.py # 社区检测算法
│ ├── call_llm_api.py # 大语言模型API调用
│ ├── eval.py # 评估工具
│ └── graph_processor.py # 图处理工具
│
├── 📁 schemas/ # 种子Schema定义
├── 📁 assets/ # 静态资源(图片、图表等)
│
├── 📁 output/ # 输出目录
│ ├── graphs/ # 构建完成的知识图谱
│ ├── chunks/ # 文本分块信息
│ └── logs/ # 运行日志
│
├── 📁 retriever/ # 检索缓存
│
├── main.py # 🎯 主程序入口
├── setup_env.sh # 安装web依赖库
├── start.sh # 启动web服务
├── requirements.txt # 依赖包列表
└── README.md # 项目文档
快速开始
提供两种方式来运行并体验示例服务,考虑到基础环境差异的影响,推荐优先使用docker环境来启动。
通过docker环境启动
本启动方式依赖docker环境,建议参照官方文档安装。
# 1. 克隆项目
git clone https://github.com/TencentCloudADP/Youtu-GraphRAG# 2. 按照.env.example文件格式创建 .env
cd Youtu-GraphRAG && cp .env.example .env
# 按照如下格式在.env中配置OpenAI API 格式的 LLM API
# LLM_MODEL=deepseek-chat
# LLM_BASE_URL=https://api.deepseek.com
# LLM_API_KEY=sk-xxxxxx# 3. 通过dockerfile文件构建镜像
docker build -t youtu_graphrag:v1 .# 4. 启动docker容器
docker run -d -p 8000:8000 youtu_graphrag:v1# 5. 访问 http://localhost:8000 体验Youtu-GraphRAG
curl -v http://localhost:8000
直接启动Web服务体验交互式界面
本启动方式依赖Python 3.10和对应的pip环境,建议参照官方文档安装。
# 1. 克隆项目
git clone https://github.com/TencentCloudADP/Youtu-GraphRAG# 2. 按照.env.example文件格式创建 .env
cd Youtu-GraphRAG && touch .env
# 按照如下格式在.env中配置OpenAI API 格式的 LLM API
# LLM_MODEL=deepseek-chat
# LLM_BASE_URL=https://api.deepseek.com
# LLM_API_KEY=sk-xxxxxx# 3. 配置环境
./setup_env.sh# 4. 启动服务
./start.sh# 5. 访问 http://localhost:8000 体验Youtu-GraphRAG
curl -v http://localhost:8000
体验效果
- 查询结果准确
- 前端交互体验很差
- 查询响应速度有点慢
如果没有梯子,使用Docker启动之前,需要改一下配置Dockerfile里面的环境变量配置,
HF_ENDPOINT
配置要加上去,不然系统用到的sentence-transformers/all-MiniLM-L6-v2
模型,没法从huggingface网站下载,国内没有梯子,没法访问huggingface。
ENV PYTHONUNBUFFERED=1 \PIP_NO_CACHE_DIR=1 \PIP_DISABLE_PIP_VERSION_CHECK=1 \HF_ENDPOINT=https://hf-mirror.com
Github开源地址