当前位置: 首页 > news >正文

基于Python CNN和词向量的句子相似性度量

毕业设计:基于CNN和词向量的句子相似性度量

注意:因为要计算WMD距离所以需要安装依赖库pyemd

开发环境

Anaconda + Pycharm

项目说明

按照老师要求复现论文(论文提出了一个新概念'相似元',通过相似元来计算两个句子的相似度‘),同时参考WMD以及论文中提到的WJ算法实现三个算法的比较

毕业设计主要针对于句子相似度的计算,尤其是长句相似度,使用GoogleNews预训练的模型

GoogleNews-vectors-negative300.bin

TODO

由于项目只实现了GoogleNews预训练模型中有的单词的句子相似度,没有拓展到中文

  • 将相似度的计算拓展到中文
  • 可以进行多个预训练模型的选择,而非GoogleNews
  • 使用FAISS 框架优化相似向量的搜索

数据来源

存放于本项目DataSet下

项目运行

  1. 配置config.json文件:model_path用于存放预训练模型存放的路径;dataset_path用于存放最后作实验评估的数据集存放的路径
  2. 从main.py开始运行,首先要点击初始化按钮加载预训练模型
  3. 在句子1和句子2处输入要计算相似度的句子
  4. 计算结果显示在 相似度,WJ,WMD距离三个地方
  5. 可以每次换一个句子,并点击计算
  6. 计算完成,点击退出

结论验证

参考资料

  1. WMD算法以及WJ算法参考
  2. Word2Vec中的sentence_similarity方法出处
  3. 理论依据
  4. From Word Embeddings To Document Distances -- Matt J. Kusner等

代码结构

毕业设计源代码存放于GraduationDesign下,这里没有提到的代码文件均已过时,请以最新的代码为准

.
├── GraduationDesign
│   ├── main.py	项目运行点
│   ├── SSFN_V6_02		第6版:实现功能的垂直分割,同时实现三个算法的实验评估
│   │   ├── Methods
│   │   │   ├── SSFN
│   │   │   │──── └── SSF_V3.py 	复现论文中的SSF函数
│   │   │   ├── WJ
│   │   │   │──── └── wj_similarity.py	论文中的比对方法:计算两个句子的余弦相似度
│   │   │   ├── WMD
│   │   │   │──── └── wmd_distance.py	 论文中的比对方法2:计算两个句子的WMD距离
│   │   │   ├── Word2Vec.py			加载并使用GoogleNews预训练的模型进行计算
│   │   ├── util
│   │   │   │──── └── util.py	 工具模块,实现词语权重计算,模型的加载等
│   │   ├── view
│   │   │   │──── └── view_data.py	 使用PyQt5编写界面
│   │   ├── datahelper
│   │   │   │──── └── data_process.py	 对实验评估数据集的处理
│   │   ├── experiment_show
│   │   │   │──── └── result_img.py	 三种实验方法比对并在本地生成最后的比对结果图

相关文章:

  • Python新春烟花
  • 【C# 数据结构】队列 FIFO
  • SpringBoot3中跨域问题解决
  • 上帝之眼——nmap
  • AI 人工智能 概念
  • 请解释 Vue 中的生命周期钩子,不同阶段触发的钩子函数及其用途是什么?
  • NetLogon 权限提升漏洞
  • 2025年微店平台商品详情接口调用指南(Python代码示例)
  • Redis简介、常用命令及优化
  • es6中Relect的详细用法
  • 【MySQL】索引与事务
  • 深度学习-123-综述之AI人工智能与DL深度学习简史1956到2024
  • 一文讲解Redis中的常用命令
  • 蓝桥杯备赛-基础训练(二)链表 day13
  • 【含开题报告+文档+PPT+源码】基于SpringBoot+Vue的社区团购配送系统
  • 虚拟机网络ssh连接失败,没有网络
  • 在 Vue 3 中使用 ECharts 制作多 Y 轴折线图时,若希望 **Y 轴颜色自动匹配折线颜色**且无需手动干预,可以通过以下步骤实现:
  • 鸿蒙-验证码输入框的几种实现方式-上
  • 软件集成测试的技术要求
  • TCP和Http协议
  • 赖清德为“临阵脱逃”作准备,国台办:绝不会任“台独”祸首逍遥法外
  • 国务院关税税则委员会关于调整对原产于美国的进口商品加征关税措施的公告
  • 反犹、资金与抗议:特朗普的施压如何撕裂美国大学?|907编辑部
  • 从普通人经历中发现历史,王笛解读《线索与痕迹》
  • 金价大跌!足金饰品每克一夜便宜14元,涨势是否已终结?
  • 2025年上海好护士揭晓,上海护士五年增近两成达12.31万人