当前位置: 首页 > news >正文

第N7周打卡:调用Gensim库训练Word2Vec模型

  • 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
  • 🍖 原作者:K同学啊

一、准备工作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、训练Word2Vec模型

from gensim.models import Word2Vecmodel = Word2Vec(result_stop,     # 用于训练的语料数据vector_size=100, # 是指特征向量的维度,默认为100。window=5,        # 一个句子中当前单词和被预测单词的最大距离。min_count=1)     # 可以对字典做截断,词频少于min_count次数的单词会被丢弃掉, 默认值为5。

三、模型应用

3.1 计算词汇相似性

# 计算两个词的相似度
print(model.wv.similarity('沙瑞金', '季昌明'))
print(model.wv.similarity('沙瑞金', '田国富'))

在这里插入图片描述

3.2 找出不匹配的词汇

在这里插入图片描述

# 选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'], topn=5):print(e[0], e[1])

在这里插入图片描述

3.2 计算词汇的词频

在这里插入图片描述

四、总结

Word2Vec 模型学习总结
4.1Word2Vec 是一种非常强大的词嵌入(Word Embedding)技术,通过学习单词的分布式表示,可以将单词映射到高维向量空间中,使得语义相似的单词在向量空间中的距离更近。
4.2主要参数理解
4.2.1​​vector_size (特征向量维度)​​
决定了词向量的维度大小
通常设置在50-300之间
维度越高能捕捉更多特征,但也需要更多数据和计算资源
4.2.2​​window (上下文窗口大小)​​
控制训练时考虑的上下文范围
较大的窗口能捕捉更多主题信息(文档级语义)
较小的窗口捕捉更多语法/功能信息(局部语义)
4.2.3​​min_count (最小词频)​​
过滤低频词的重要参数
设置过低会导致模型学习不常见词的噪声
设置过高会丢失一些有价值但低频的词
4.3模型特点总结
​​4.3.1分布式表示​​
将单词表示为稠密向量
解决了传统one-hot表示的高维稀疏问题
​​4.3.2语义捕捉能力​​
能够捕捉"国王-男人+女人≈女王"这样的语义关系
相似词在向量空间中距离相近
4.3.3两种训练算法​​
CBOW (Continuous Bag-of-Words):通过上下文预测当前词
Skip-gram:通过当前词预测上下文(适合小数据集)
实际应用经验
​​数据预处理很重要​​
分词质量直接影响模型效果
去除停用词、特殊符号等噪声
考虑词干提取或词形还原
​​参数调优建议​​
大数据集可以使用更大的window和vector_size
小数据集建议使用Skip-gram算法
min_count根据语料大小设置,一般5-20
​​4.3.4模型评估方法​​
相似词检索:model.wv.most_similar(‘单词’)
词语类比:model.wv.most_similar(positive=[‘女人’, ‘国王’], negative=[‘男人’])
可视化降维检查(如t-SNE)

http://www.dtcms.com/a/496272.html

相关文章:

  • 飞阳建设网站北京高端网页
  • 网站开发的问题有哪些东营做网站哪家好
  • 第8章 基于表格型方法的规划和学习(4) 期望更新与采样更新
  • 唐山网站制作系统站长之家域名
  • 全国的做网站的公司低代码建站平台
  • open-webui docker高速下载本地部署
  • 东台企业网站建设手机网站域名解析怎么做
  • 公司网站空间申请wordpress的托管
  • 中兴ZXV10 B860AV2.1-T 3.0_S905L3B_uw5621无线(可通刷CA)线刷固件包
  • 需求基线管理的数智化转型:痛点、路径与实践价值
  • 沈阳企业网站开发定制wordpress的第三方登录插件
  • N8N系列:新手教程,“出色外交官” Webhook节点,打通外部应用,让工作流不再 “闭门运行”
  • 建设网站jw100济南网络策划
  • 织梦网站怎么重新安装教程网络营销方案论文
  • 剑指offer:面试题39数组中出现次数超过一半的数字、面试题40最小的k个数、面试题41数据流中的中位数
  • 广州网站建设藤虎网络许昌企业网站建设公司
  • dede网站制作教程数据分析网站开发
  • Langchain 附加函数及应用
  • 网站建设背景资料平台建设包括什么
  • 迁移WSL发行版到其他磁盘(D盘)
  • SSM整合----项目异常处理方案
  • 容桂网站制作信息连云港网站定制开发
  • 雷达点云数据展示在webviz(ROS1)
  • 左右滑动分类列表 背景图跟随选中状态改变位置 滑动时跟随文字滑动
  • 湖南省建设网站网站建设是属于软件吗
  • 医疗网站建设网站家用宽带做网站
  • Linux 应用开发学习指南
  • 河南生产型企业网站建设中企动力300官网
  • 计算机图形学中的光照模型:从基础到现代技术
  • 章丘建网站网络推广优化的英文