当前位置：首页 > news >正文

深度学习笔记41_调用Gensim库训练Word2Vec模型

news 2025/7/1 15:39:12

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊 | 接辅导、项目定制

一、我的环境

1.语言环境：Python 3.8

2.编译器：Pycharm

3.深度学习环境：

torch==1.12.1+cu113
torchvision==0.13.1+cu113

二、安装Gensim库

pip install gensim

三、对原始语料分词

选择《人民的名义》的小说原文作为语料，先采用jieba进行分词。这里是直接添加的自定义词汇，没有选择创建自定义词汇文件。

import jieba.analysejieba.suggest_freq('沙瑞金', True)  # 加入一些词，使得jieba分词准确率更高
jieba.suggest_freq('田国富', True)
jieba.suggest_freq('高育良', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('钟小艾', True)
jieba.suggest_freq('陈岩石', True)
jieba.suggest_freq('欧阳菁', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('蔡成功', True)
jieba.suggest_freq('孙连城', True)
jieba.suggest_freq('季昌明', True)
jieba.suggest_freq('丁义珍', True)
jieba.suggest_freq('郑西坡', True)
jieba.suggest_freq('赵东来', True)
jieba.suggest_freq('高小琴', True)
jieba.suggest_freq('赵瑞龙', True)
jieba.suggest_freq('林华华', True)
jieba.suggest_freq('陆亦可', True)
jieba.suggest_freq('刘新建', True)
jieba.suggest_freq('刘庆视', True)
jieba.suggest_freq('赵德汉', True)
with open('./data.txt', encoding='utf-8') as f:result_cut = []lines = f.readlines()for line in lines:result_cut.append(list(jieba.cut(line)))f.close()

结果：

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ldq\AppData\Local\Temp\jieba.cache
Loading model cost 0.313 seconds.
Prefix dict has been built successfully.

四、添加自定义停用词

stopwords_list = [",", "。", "\n", "\u3000", " ", ":", "!", "?","…"]  # \u3000 是一个 Unicode 编码的字符，它代表一个全角的空白字符，通常在中文文本中用作空格。def remove_stopwords(ls):  # 去除停用词return [word for word in ls if word not in stopwords_list]result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]
print(result_stop[100:103])

结果：

[['侯亮平', '也', '很', '幽默', '，', '一把', '抓住', '了', '赵德汉', '的', '手', '：', '哎', '，', '赵', '处长', '，', '我', '既', '来', '了', '还', '真', '舍不得', '和', '你', '马上', '就', '分手', '哩', '！', '咱们', '去', '下', '一个点', '吧', '！', '说', '罢', '，', '从', '赵家', '桌上', '杂物', '筐', '里', '准确', '地', '拿出', '一张', '白色', '门卡', '，', '插到', '了', '赵德汉', '的', '上衣', '口袋', '里'], ['赵德汉', '慌', '了', '，', '忙', '把门', '卡往', '外', '掏', '：', '这', '这', '什么', '呀', '这', '是', '？'], ['你', '帝京', '苑', '豪宅', '的', '门', '卡', '啊', '！', '请', '继续', '配合', '我们', '执行公务', '吧', '！']]

五、训练Word2Vec模型

from gensim.models import Word2Vecmodel = Word2Vec(result_stop,  # 用于训练的语料数据vector_size=100,  # 是指特征向量的维度，默认为100window=5,  # 一个句子中当前单词和被预测单词的最大距离min_count=1)  # 可以对字典做截断，词频少于min_count次数的单词会被丢弃掉，默认值为5

六、模型应用

num_class  = len(label_name)
vocab_size = len(vocab)
em_size    = 64
model      = TextClassificationModel(vocab_size, em_size, num_class).to(device)

1.计算词汇相似度

print(model.wv.similarity('沙瑞金', '季昌明'))
print(model.wv.similarity('沙瑞金', '田国富'))
for e in model.wv.most_similar(positive=['沙瑞金'], topn=5):print(e[0], e[1])

结果：

0.99802387
0.99903405

李达康 0.9997692108154297
情况 0.9997009634971619
欧阳菁 0.9996625781059265
又 0.9995917677879333
学生 0.9995916485786438

2.找出不匹配的词汇

odd_word = model.wv.doesnt_match(["苹果", "香蕉", "橙子", "书"])
print(f"在这组词汇中不匹配的词汇：{odd_word}")

结果：

在这组词汇中不匹配的词汇：书

3.计算词汇的词频

word_frequency = model.wv.get_vecattr("沙瑞金", "count")
print(f"沙瑞金：{word_frequency}")

结果：沙瑞金：353

查看全文

http://www.dtcms.com/a/179306.html

什么是：Word2Vec + 余弦相似度

又双叒叕想盘一下systemd

Lua从字符串动态构建函数

Pandas比MySQL快？

全国青少年信息素养大赛 Python编程挑战赛初赛内部集训模拟试卷三及详细答案解析

计算机科技笔记：容错计算机设计01 概述教材书籍课程安排发展历史

不止于观赏：3D 全景漫游的多元价值

MySQL 8.0 OCP认证考试题库持续更新

【AI论文】绝对零度：基于零数据的强化自博弈推理

SpringBoot快速入门WebSocket(JSR-356附Demo源码)

移动端前端开发中常用的css

如何处理oracle 12c DG归档日志缺失(gap)导致备库同步中断问题

Android Studio Gradle 中只显示 Tasks 中没有 build 选项解决办法

linux动态占用cpu脚本、根据阈值增加占用或取消占用cpu的脚本、自动检测占用脚本状态、3脚本联合套用。

【Python】PDF文件处理（PyPDF2、borb、fitz）

数据结构和算法

印度股票市场API对接文档

如何通过grep 排除“INTEGER: 1”

中级网络工程师知识点2

Don’t Mesh with Me 论文阅读 brep llm

系统架构-面向服务架构（SOA）

【嵌入式开发-SDIO】

ResNet残差神经网络的模型结构定义（pytorch实现）

为什么 MySQL 用 B+ 树作为数据的索引，以及在 InnoDB 中数据库如何通过 B+ 树索引来存储数据以及查找数据

使用CubeMX新建SPI读写串行FLASH工程

IoT平台和AIoT平台的区别

M0芯片的基础篇Timer

RSAC 2025观察：零信任+AI=网络安全新范式

Python+ffmpeg 实现给视频添加字幕

Cut video with ffmpeg