当前位置: 首页 > news >正文

知识图谱的学习

参考:知识图谱构建(概念,工具,实例调研)-CSDN博客

实体抽取,实体链接(两个实体同一个含义需要规整),目前最主流的算法就是CNN+LSTM+CRF进行实体识别。 

1.数据预处理

        数据预处理阶段,原始数据的质量会直接影响到最终链接的结果,不同的数据集对同一实体的描述方式往往是不相同的,对这些数据进行归一化是提高后续链接精确度的重要步骤。常用的数据预处理有:

语法正规化:

        语法匹配:如联系电话的表示方法

        综合属性:如家庭地址的表达方式

数据正规化:

        移除空格、《》、“”、-等符号

        输入错误类的拓扑错误

        用正式名字替换昵称和缩写等

  属性相似度: 综合单个属性相似度得到属性相似度向量:

        实体相似度: 根据属性相似度向量得到一个实体的相似度。

2.1属性相似度的计算

        属性相似度的计算有多种方法,常用的有编辑距离、集合相似度计算、基于向量的相似度计算等。

(1)编辑距离: Levenstein、 Wagner and Fisher、 Edit Distance with Afine Gaps

(2)集合相似度计算: Jaccard系数, Dice

(3)基于向量的相似度计算: Cosine相似度、TFIDF相似度

2.2实体相似度的计算

实体关系发现框架Limes

2.2.1聚合:

(1)加权平均:对相似度得分向量的各个分量进行加权求和,得到最终的实体相似度

(2)手动制定规则:给每一个相似度向量的分量设置一个阈值,若超过该阈值则将两实体相连

(3)分类器:采用无监督/半监督训练生成训练集合分类

2.2.2聚类:

(1)层次聚类:通过计算不同类别数据点之间的相似度对在不同的层次的数据进行划分,最终形成树状的聚类结构。

(2)相关性聚类:使用最小的代价找到一个聚类方案。

(3)Canopy + K-means:不需提前指定K值进行聚类

Limes是一个基于度量空间的实体匹配发现框架,适合于大规模数据链接,编程语言是Java。其整体框架如下图所示:

http://www.dtcms.com/a/310730.html

相关文章:

  • 脚本统计MongoDB集合表数据量
  • 思途JSP学习 0801
  • 函数 dirfd 详解
  • 26考研|高等代数:欧几里得空间
  • TwinCAT3示例项目1
  • Redis学习18-分布式锁
  • 深拷贝与浅拷贝的定义
  • 机器学习特征工程----常见的特征构建与转换方法
  • dify 升级1.7.1 插件无法下载依赖
  • 分区管控与高效协同:EtherCAT转EtherCAT网关赋能纺织生产
  • c++-reverse_iterator
  • 什么是 Redis?从基础概念到技术本质的全面解析
  • 微信小程序页面间通信的实现方式
  • 升级的MS1836C HD转CVBS/S-Video转换器
  • WooCommerce 与 ERP 系统集成解决方案
  • Agents-SDK智能体开发[1]之入门
  • 智能客服系统实战:多轮对话与知识库检索完整实现
  • DL环境捉虫
  • Python从入门到精通——第四章 程序流程控制
  • 第五届智能通信与计算国际学术会议(ICICC 2025)
  • 电子合同管理台账功能详解
  • Dify API接口上传文件 postman配置
  • Param关键字的使用
  • Pycaita二次开发基础代码解析:几何体重命名与参数提取技术
  • 如何使用Postman做接口测试
  • VS Code 插件开发教程
  • 麻醉深度监护系统市场规模从 857 百万美元向 1244 百万美元跨越,2031 年将形成更大的市场
  • 机试01——C++基础语法与库函数
  • Luckysheet 打印终极指南(预览视图+打印功能) : 2025 最新实现
  • Codeforces Educational 181(ABCD)