当前位置：首页 > news >正文

【知识图谱】数据处理与数据存储

news 2025/10/31 12:01:53

构建知识图谱：从数据预处理到存入 Neo4j 图数据库

知识图谱（Knowledge Graph）作为一种结构化语义表示方法，广泛应用于搜索引擎、推荐系统、智能问答等领域。本文将以实际数据为例，讲解如何将原始数据处理成适合构建知识图谱的结构，并导入到 Neo4j 图数据库中。

一、数据预处理

1. 原始数据示例

假设我们有一个招聘信息的数据集，包含如下字段：

名称（岗位名称）
公司
技能要求（用逗号分隔的技能列表）

名称,公司,技能要求
Python开发工程师,某科技公司,Python,Flask,Django
前端开发,互联网企业,JavaScript,React,HTML,CSS
数据分析师,大数据公司,SQL,Python,Pandas

2. 读取与清洗数据

import pandas as pddf = pd.read_csv('recruit.csv')
df.dropna(subset=['名称', '公司', '技能要求'], inplace=True)# 标准化技能字段，转换为列表
df['技能要求'] = df['技能要求'].apply(lambda x: [skill.strip() for skill in x.split(',')])

二、构建图数据结构

我们计划构建以下实体关系：

岗位 节点：对应岗位名称
公司 节点：对应公司
技能 节点：技能名称
岗位-属于->公司
岗位-需要->技能

1. 生成图结构数据

from py2neo import Graph, Node, Relationshipgraph = Graph("bolt://localhost:7687", auth=("neo4j", "password"))for _, row in df.iterrows():job_node = Node("Job", name=row['名称'])company_node = Node("Company", name=row['公司'])graph.merge(job_node, "Job", "name")graph.merge(company_node, "Company", "name")graph.merge(Relationship(job_node, "BELONGS_TO", company_node))for skill in row['技能要求']:skill_node = Node("Skill", name=skill)graph.merge(skill_node, "Skill", "name")graph.merge(Relationship(job_node, "REQUIRES", skill_node))

三、在 Neo4j 中查看数据

在 Neo4j 浏览器中输入如下查询语句，可以查看构建好的图谱：

MATCH (j:Job)-[:BELONGS_TO]->(c:Company) RETURN j, c LIMIT 20;
MATCH (j:Job)-[:REQUIRES]->(s:Skill) RETURN j, s LIMIT 20;

你也可以使用 Neo4j 的 Bloom 或其他可视化工具展示图谱关系。

四、小结与建议

保证实体唯一性（如岗位名重复时需加入公司名作为区分）
对技能字段进行清洗与标准化（如统一大小写、去除空格）
推荐使用 merge 而非 create 以避免重复节点

通过以上步骤，你可以将结构化数据高效转换为图数据并导入 Neo4j，为后续的语义分析和智能问答打下基础。

如需进一步构建基于知识图谱的问答系统、可视化平台，或集成语言模型进行语义搜索，欢迎继续关注后续内容！

查看全文

http://www.dtcms.com/a/207428.html

用对称化与chaining技术bound经验过程上确界的期望（Guntuboyina理论统计学笔记）

Three.js搭建小米SU7三维汽车实战（1）搭建开发环境

vue3定于组件名字的几种方法

浙江大学python程序设计（陈春晖、翁恺、季江民）习题答案-第十章

QT ui控件setEnabled(false) 作用

亚马逊IEN新规避坑指南：两大申报盲区与合规策略解析

YOLOv5：调用官方权重进行检测

Appium 的 enableMultiWindows 参数

甲骨文云服务器适合做网站吗

MCP Server Tool 开发学习文档

Veeam Backup 13 beta install

跨境支付风控失效？用代理 IP 构建「地域 - 设备 - 行为」三维防护网

Resin-3.1.12-01 安装教程：详细步骤与配置指南（Linux环境）

遥控器处理器与光纤通信技术解析

树 Part 8

如何借助iPaaS集成平台做好API 错误码规范化

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（27）：失敗失败经验

SSHwifty-基于Web的SSH/Telnet管理工具

06算法学习_58. 区间和

从连接中枢到终端接入——解析工业无线AP与客户端的协同之道

山东大学软件学院创新项目实训开发日志——第十二周

MVC 与 MVT：Web 开发架构模式的异同与实践

MFC 中实现动态控件启用与命令执行

Windows命令实用工具——tcping 命令工具安装及基础使用

ollama接口数据返回格式化数据，商品标题，商品详情

1.3 任务Task的说明（Xqt)

Windows逆向工程提升之IMAGE_SECTION_HEADER

error: cannot open Packages database in /var/lib/rpm

Phantom 根据图片和文字描述，自动生成一段视频，并且动作、场景等内容会按照文字描述来呈现

React-fiber架构