当前位置: 首页 > wzjs >正文

js 网站首页下拉广告专业seo站长工具全面查询网站

js 网站首页下拉广告,专业seo站长工具全面查询网站,怎么做网站底部版权信息,微网站在哪建本文为🔗365天深度学习训练营内部文章 原作者:K同学啊 一、Word2Vec是什么? 自然语言处理(NLP)是一种涉及到处理语言文本的计算机技术。在 NLP 中,最小的处理单位是词语,词语是语言文本的基本组成部分。词语组成句子&a…

本文为🔗365天深度学习训练营内部文章

原作者:K同学啊

 

一、Word2Vec是什么?

自然语言处理(NLP)是一种涉及到处理语言文本的计算机技术。在 NLP 中,最小的处理单位是词语,词语是语言文本的基本组成部分。词语组成句子,句子再组成段落、篇章、文档,因此处理 NLP 问题的第一步是要对词语进行处理。
在进行 NLP 问题处理时,一个常见的任务是判断一个词的词性,即动词还是名词等等。这可以通过机器学习来实现。具体地,我们可以构建一个映射函数 f(x)->y,其中 x 是词语,y是它们的词性。为了使用机器学习模型,需要将词语转换成数值形式。然而,在NLP 中,词语是人类的抽象总结,是符号形式的 (比如中文、英文、拉丁文等等),不是数值形式的,因此需要将它们嵌入到一个数学空间中,这个过程就是词嵌入(word embedding)。
词嵌入是将词语映射到一个向量空间中的过程,使得相似的词在向量空间中距离较近,而不相似的词距离较远。**Word2Vec则是其中的一种词嵌入方法,是一种用于生成词向量的浅层神经网络模型**,由Tomas Mikolov及其团队于2013年提出。**Word2Vec通过学习大量文本数据,将每个单词表示为一个连续的向量,这些向量可以捕捉单词之间的语义和句法关系**。Word2Vec有两种主要架构:连续词袋模型(Continuous Bag of Words,CBOW)和Skip-Gram模型。

二、CBOW模型

CBOW(Continuous Bag of Words)模型是通过上下文来预测当前值。相当于一句话中扣掉一个词,让你猜这个词是什么。 ​ 具体来说,CBOW 模型首先将输入的词语转换为词向量,然后将这些词向量相加得到一个向量表示这个向量表示就是当前上下文的表示。最后,CBOW 模型使用这个向量表示来预测目标词语的概率分布。CBOW 模型的核心思想是根据上下文预测当前词语,因此它通常适用于训练数据中目标词语出现频率较高的情况。  

 

三、Skip-gram模型

Skip-gram 模型用当前词来预测上下文。相当于给你一个词,让你猜前面和后面可能出现什么词。 ​ 具体来说,Skip-gram 模型首先将目标词语转换为它的词向量,然后使用这个词向量来预测它周围的词语。Skip-gram 模型的核心思想是利用目标词语来预测上下文,因此它通常适用于训练数据中目标词语出现频率较低的情况。

 

 

Skip-gram 模型和 CBOW 模型的训练过程都是基于反向传播算法和随机梯度下降算法实现的。在训练过程中,两个模型都会通过不断地更新词向量来最小化损失函数,使得目标词语和它周围的词语在向量空间中距离更近。最终,训练完成后,每个词语都被嵌入到了一个低维向量空间中,这些向量可以用于各种NLP 任务,如语言模型、词性标注、文本分类等等。  

四、实例解答

实例:假设我们有以下句子作为训练语料:

"The quick brown fox jumps over the lazy dog."

对于Skip-gram模型,假设我们选择窗口大小为2(即在目标单词前后各取2个单词作为上下文)。以单词"jump"为例,我们将有以下训练样本:

输入:jumps 输出:(quick,brown,over,the)

这些训练样本用于调整词向量,使得给定单词"jumps"时,上下文单词的概率最大化

而对于CBOW模型,训练样本是相反的:

输入:(quick,brown,over,the) 输出:jumps

在这种情况下,CBOW模型会根据上下文来预测目标单词"jumps"

训练完成后,每个单词都会被赋予一个词向量,这些词向量可以用于后续的NLP任务,如文本分类、聚类、相似度计算等。一个有趣的现象是,词向量之间的数学运算可以揭示单词之间的语义关系,例如:

 

五、调用Gensim库实现Word2vec模型

1.对原始语料进行分词

 

import jieba
import jieba.analysejieba.suggest_freq('沙瑞金',True)  # 加入一些词,使得jieba分词准确率更高
jieba.suggest_freq('田国富',True)
jieba.suggest_freq('高育良',True)
jieba.suggest_freq('侯亮平',True)
jieba.suggest_freq('钟小艾',True)
jieba.suggest_freq('陈岩石',True)
jieba.suggest_freq('欧阳菁',True)
jieba.suggest_freq('易学习',True)
jieba.suggest_freq('王大路',True)
jieba.suggest_freq('蔡成功',True)
jieba.suggest_freq('孙连城',True)
jieba.suggest_freq('季昌明',True)
jieba.suggest_freq('丁义珍',True)
jieba.suggest_freq('郑西坡',True)
jieba.suggest_freq('赵东来',True)
jieba.suggest_freq('高小琴',True)
jieba.suggest_freq('赵瑞龙',True)
jieba.suggest_freq('林华华',True)
jieba.suggest_freq('陆亦可',True)
jieba.suggest_freq('刘新建',True)
jieba.suggest_freq('刘庆祝',True)
jieba.suggest_freq('赵德汉',True)# 读取文件
with open('./in_the_name_of_people.txt',encoding='utf-8') as f:result_cut = []lines = f.readlines()for line in lines:result_cut.append(list(jieba.cut(line)))
f.close()

 

# 添加自定义停用词
stopwords_list = [",","。","\n","\u3000"," ",":",":","!","?","?","!","…","……"]def remove_stopwords(ls):    # 去除停用词return [word for word in ls if word not in stopwords_list]result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]
print(result_stop[100:103])from gensim.models import Word2Vecmodel = Word2Vec(result_stop,    # 用于训练的语料数据vector_size=100,    # 是指特征向量的维度,默认为100window=5,    # 一个句子中当前单词和被预测单词的最大距离min_count=1      # 可以对字典做截断,词频少于min_count次数的单词会被丢弃掉,默认是5
)'''
模型应用
'''
# 1.计算词汇相似度
print(model.wv.similarity('沙瑞金','田国富'))
print(model.wv.similarity('沙瑞金','高育良'))

# 选出最相近的10个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=10):print(e[0],e[1])

 

2)找出不匹配的词汇

使用 doesnt_match()方法,我们可以找到一组词汇中与其他词汇不匹配的词汇

 

# 2.找出不匹配的词汇
odd_word = model.wv.doesnt_match(["沙瑞金","侯亮平","丁义珍","书"])
print(f'在这组词汇中不匹配的词汇:{odd_word}')# 3.计算词语的词频
word_freq = model.wv.get_vecattr('沙瑞金','count')
print(f'沙瑞金:{word_freq}')
word_freq = model.wv.get_vecattr('田国富','count')
print(f'田国富:{word_freq}')
word_freq = model.wv.get_vecattr('高育良','count')
print(f'高育良:{word_freq}')

 

http://www.dtcms.com/wzjs/232454.html

相关文章:

  • 做视频网站需要什么资质推荐几个靠谱的网站
  • 微网站建站平台推广衣服的软文
  • app网站开发培训平台推广费用一般是多少
  • 张掖市网站建设万网登录入口
  • 巩义网站网站建设做网站建网站公司
  • 怎么讲解网页的制作技术seo实战技巧
  • 建一个英文网站需要多少钱百度客服中心
  • 网站建设的重点是什么网上营销
  • 政府网站集约化建设思路百度惠生活怎么做推广
  • 工程建设招标中心网站长沙网站开发
  • 把照片做册子的网站龙斗seo博客
  • 网站数据分离 怎么做中央今日头条新闻
  • 专业网站制作设头条站长平台
  • 办网站除了域名备案 还需要什么友链交换平台源码
  • 网站维护费站长之家seo工具
  • 东莞智通人才网官网首页seo搜索引擎优化技术教程
  • 做sm网站违法吗99个创意营销方案
  • 黄页网址大全seo排名策略
  • 外包做网站seo查询工具
  • 漳州网站建设哪家最正规百度seo推广方案
  • 做网站不能有中文字符怎么查找关键词排名
  • wordpress阅读器网站优化一年多少钱
  • 湛江网站制作江网站制作百度指数人群画像怎么看
  • 网站流量15g关键词排名零芯互联关键词
  • 网站和微信订阅号优势奇零seo赚钱培训
  • 谷歌网站地图在线生成天津seo推广优化
  • 物联网应用技术是干什么的关键词排名seo优化
  • 网站描述关键词电脑系统优化软件哪个好用
  • 自主设计网站怎么把网站排名优化
  • 专业的网站建设企业搜索引擎营销的方法有哪些