当前位置：首页 > news >正文

可视化 GraphRAG 构建的知识图谱空谈版

news 2025/9/24 10:36:49

一、GraphRAG 构建的知识图谱

GraphRAG 是一种先进的基于知识图谱的检索增强生成方法。它不仅仅是对文档进行简单的向量化存储，而是通过结构化的方式，将本地文档转化为一个包含实体、关系和语义社区的知识图谱。

那么，这个由 GraphRAG 构建的知识图谱到底长什么样？里面具体包含了哪些信息？今天我们就来对这些数据进行可视化展示，帮助大家更直观地理解 GraphRAG 的内部工作机制。

首先，我们需要了解 GraphRAG 在索引阶段提取了哪些核心结构化信息：

文本块（Text Chunks）
实体（Entities）
关系（Relationships）
社区（Communities）
社区报告（Community Reports）

这些信息在 GraphRAG 处理完成后，会以 Parquet 文件格式 存储在项目的 storage 目录下。我们可以读取这些文件，查看其具体内容。

1. 文本块（Text Chunks）

每个文本块记录了原始文档的分段内容，包括：

原始文本内容
Token 数量
所属源文档路径
包含的实体列表
包含的关系列表

这是图谱构建的基础单元。

2. 实体（Entities）

每个实体包含以下字段：

实体名称（name）
实体类型（type，如“人物”、“技术”、“组织”等）
实体描述（description，由 LLM 生成）
来源文本块 ID
描述的嵌入向量（embedding）

这些实体是知识图谱中的“节点”，代表文档中的关键概念。

3. 关系（Relationships）

每条关系连接两个实体，包含：

头实体（source entity）
尾实体（target entity）
关系描述（description，如“X 被用于 Y”）
来源文本块 ID
其他元信息（如权重、上下文等）

关系体现了实体之间的语义联系，是图谱“智能”的关键。

4. 社区（Communities）

GraphRAG 使用图聚类算法（如 Leiden）将高度连接的实体和关系聚类成“社区”，每个社区包含：

社区 ID 与标题（title）
层级（level，表示抽象程度）
包含的实体和关系列表
包含的文本块列表

社区实现了对知识的层次化组织。

5. 社区报告（Community Reports）

每个社区会生成一份结构化摘要报告，内容包括：

社区主题概述
关键实体与关系总结
排名（rank）及其解释
社区标题与摘要文本
融合后的完整 JSON 表示

这些报告在后续查询中用于高层次推理和上下文生成。

二、可视化实现

为了更直观地观察 GraphRAG 构建的图谱结构，我们使用 Neo4j 作为图数据库进行可视化。

步骤如下：

启动 Neo4j 容器
使用 Docker 启动 Neo4j 图数据库服务。启动命令已写入脚本：
```
./start_neo4j.sh
```
访问 Neo4j 浏览器
打开浏览器访问 http://localhost:7474
- 默认用户名：neo4j
- 初始密码需修改，例如设为 neo4j1234W
导入数据
编写 Python 脚本，依次将以下数据导入 Neo4j：
- 文本块 → 创建为 :Chunk 节点
- 实体 → 创建为 :Entity 节点
- 关系 → 创建为 :RELATED 边
- 社区 → 创建为 :Community 节点
- 社区报告 → 创建为 :Report 节点，并与社区关联
导入完成后，图数据库中已构建出完整的 GraphRAG 知识图谱。
观察图谱结构
- 初始视图为空，导入后出现大量节点和边。
- 默认只显示 25 个节点，可调整为 100 或 300 个以便观察。
- 放大后可见：
  - 节点类型：Chunk、Entity、Community
  - 边类型：
    - :HAS_ENTITY：文本块包含某个实体
    - :IN_COMMUNITY：实体或关系属于某个社区
    - :RELATED：两个实体之间存在语义关系
典型观察示例
- 多个 Chunk 节点指向同一个实体（如“大模型”），说明该概念在文档中高频出现。
- 某个 Community 节点连接一组实体和关系，体现其作为“主题聚类”的作用。
- 社区报告节点汇总了该主题的核心信息，可用于高层次问答。
可视化限制
- Neo4j 浏览器最多仅展示前 300 条关系（即使图谱中有数千条）。
- 实际图谱规模较大，需结合子图查询或专用图分析工具进一步探索。

三、GraphRAG 图谱的核心价值

维度	内容
本质	GraphRAG 构建的知识图谱是一个结构化、可解释的知识索引。
组成	实体 + 关系 + 文本块 + 社区 + 社区报告
存储	以 Parquet 文件形式本地持久化
可视化工具	Neo4j（通过 Docker 部署）
核心关系类型	`HAS_ENTITY`, `RELATED`, `IN_COMMUNITY`
优势	支持多跳推理、语义聚类、可解释检索，远超传统向量 RAG
局限	可视化工具难以展示全图，需结合编程接口深入分析