当前位置: 首页 > wzjs >正文

wordpress 安装主题后郑州搜索引擎优化公司

wordpress 安装主题后,郑州搜索引擎优化公司,泰安创意网络公司,化妆品电商网站模板本文为🔗365天深度学习训练营内部文章 原作者:K同学啊 一、Word2Vec是什么? 自然语言处理(NLP)是一种涉及到处理语言文本的计算机技术。在 NLP 中,最小的处理单位是词语,词语是语言文本的基本组成部分。词语组成句子&a…

本文为🔗365天深度学习训练营内部文章

原作者:K同学啊

 

一、Word2Vec是什么?

自然语言处理(NLP)是一种涉及到处理语言文本的计算机技术。在 NLP 中,最小的处理单位是词语,词语是语言文本的基本组成部分。词语组成句子,句子再组成段落、篇章、文档,因此处理 NLP 问题的第一步是要对词语进行处理。
在进行 NLP 问题处理时,一个常见的任务是判断一个词的词性,即动词还是名词等等。这可以通过机器学习来实现。具体地,我们可以构建一个映射函数 f(x)->y,其中 x 是词语,y是它们的词性。为了使用机器学习模型,需要将词语转换成数值形式。然而,在NLP 中,词语是人类的抽象总结,是符号形式的 (比如中文、英文、拉丁文等等),不是数值形式的,因此需要将它们嵌入到一个数学空间中,这个过程就是词嵌入(word embedding)。
词嵌入是将词语映射到一个向量空间中的过程,使得相似的词在向量空间中距离较近,而不相似的词距离较远。**Word2Vec则是其中的一种词嵌入方法,是一种用于生成词向量的浅层神经网络模型**,由Tomas Mikolov及其团队于2013年提出。**Word2Vec通过学习大量文本数据,将每个单词表示为一个连续的向量,这些向量可以捕捉单词之间的语义和句法关系**。Word2Vec有两种主要架构:连续词袋模型(Continuous Bag of Words,CBOW)和Skip-Gram模型。

二、CBOW模型

CBOW(Continuous Bag of Words)模型是通过上下文来预测当前值。相当于一句话中扣掉一个词,让你猜这个词是什么。 ​ 具体来说,CBOW 模型首先将输入的词语转换为词向量,然后将这些词向量相加得到一个向量表示这个向量表示就是当前上下文的表示。最后,CBOW 模型使用这个向量表示来预测目标词语的概率分布。CBOW 模型的核心思想是根据上下文预测当前词语,因此它通常适用于训练数据中目标词语出现频率较高的情况。  

 

三、Skip-gram模型

Skip-gram 模型用当前词来预测上下文。相当于给你一个词,让你猜前面和后面可能出现什么词。 ​ 具体来说,Skip-gram 模型首先将目标词语转换为它的词向量,然后使用这个词向量来预测它周围的词语。Skip-gram 模型的核心思想是利用目标词语来预测上下文,因此它通常适用于训练数据中目标词语出现频率较低的情况。

 

 

Skip-gram 模型和 CBOW 模型的训练过程都是基于反向传播算法和随机梯度下降算法实现的。在训练过程中,两个模型都会通过不断地更新词向量来最小化损失函数,使得目标词语和它周围的词语在向量空间中距离更近。最终,训练完成后,每个词语都被嵌入到了一个低维向量空间中,这些向量可以用于各种NLP 任务,如语言模型、词性标注、文本分类等等。  

四、实例解答

实例:假设我们有以下句子作为训练语料:

"The quick brown fox jumps over the lazy dog."

对于Skip-gram模型,假设我们选择窗口大小为2(即在目标单词前后各取2个单词作为上下文)。以单词"jump"为例,我们将有以下训练样本:

输入:jumps 输出:(quick,brown,over,the)

这些训练样本用于调整词向量,使得给定单词"jumps"时,上下文单词的概率最大化

而对于CBOW模型,训练样本是相反的:

输入:(quick,brown,over,the) 输出:jumps

在这种情况下,CBOW模型会根据上下文来预测目标单词"jumps"

训练完成后,每个单词都会被赋予一个词向量,这些词向量可以用于后续的NLP任务,如文本分类、聚类、相似度计算等。一个有趣的现象是,词向量之间的数学运算可以揭示单词之间的语义关系,例如:

 

五、调用Gensim库实现Word2vec模型

1.对原始语料进行分词

 

import jieba
import jieba.analysejieba.suggest_freq('沙瑞金',True)  # 加入一些词,使得jieba分词准确率更高
jieba.suggest_freq('田国富',True)
jieba.suggest_freq('高育良',True)
jieba.suggest_freq('侯亮平',True)
jieba.suggest_freq('钟小艾',True)
jieba.suggest_freq('陈岩石',True)
jieba.suggest_freq('欧阳菁',True)
jieba.suggest_freq('易学习',True)
jieba.suggest_freq('王大路',True)
jieba.suggest_freq('蔡成功',True)
jieba.suggest_freq('孙连城',True)
jieba.suggest_freq('季昌明',True)
jieba.suggest_freq('丁义珍',True)
jieba.suggest_freq('郑西坡',True)
jieba.suggest_freq('赵东来',True)
jieba.suggest_freq('高小琴',True)
jieba.suggest_freq('赵瑞龙',True)
jieba.suggest_freq('林华华',True)
jieba.suggest_freq('陆亦可',True)
jieba.suggest_freq('刘新建',True)
jieba.suggest_freq('刘庆祝',True)
jieba.suggest_freq('赵德汉',True)# 读取文件
with open('./in_the_name_of_people.txt',encoding='utf-8') as f:result_cut = []lines = f.readlines()for line in lines:result_cut.append(list(jieba.cut(line)))
f.close()

 

# 添加自定义停用词
stopwords_list = [",","。","\n","\u3000"," ",":",":","!","?","?","!","…","……"]def remove_stopwords(ls):    # 去除停用词return [word for word in ls if word not in stopwords_list]result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]
print(result_stop[100:103])from gensim.models import Word2Vecmodel = Word2Vec(result_stop,    # 用于训练的语料数据vector_size=100,    # 是指特征向量的维度,默认为100window=5,    # 一个句子中当前单词和被预测单词的最大距离min_count=1      # 可以对字典做截断,词频少于min_count次数的单词会被丢弃掉,默认是5
)'''
模型应用
'''
# 1.计算词汇相似度
print(model.wv.similarity('沙瑞金','田国富'))
print(model.wv.similarity('沙瑞金','高育良'))

# 选出最相近的10个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=10):print(e[0],e[1])

 

2)找出不匹配的词汇

使用 doesnt_match()方法,我们可以找到一组词汇中与其他词汇不匹配的词汇

 

# 2.找出不匹配的词汇
odd_word = model.wv.doesnt_match(["沙瑞金","侯亮平","丁义珍","书"])
print(f'在这组词汇中不匹配的词汇:{odd_word}')# 3.计算词语的词频
word_freq = model.wv.get_vecattr('沙瑞金','count')
print(f'沙瑞金:{word_freq}')
word_freq = model.wv.get_vecattr('田国富','count')
print(f'田国富:{word_freq}')
word_freq = model.wv.get_vecattr('高育良','count')
print(f'高育良:{word_freq}')

 

http://www.dtcms.com/wzjs/336951.html

相关文章:

  • 安庆网站建设价格seo搜索引擎优化5
  • 杭州五旋科技网站建设怎么样关键词排名优化顾问
  • 推广计划英文公司的seo是什么意思
  • 吕梁做网站会计培训班的费用是多少
  • 水浒传真实原型搜索引擎优化的概念
  • 成都网站的友情链接英文
  • 嵌入式培训骗局北京网站seo设计
  • 承德建设网站公司个人网站创建平台
  • 无锡市工程造价信息网搜索引擎优化网站的网址
  • 三合一静态网站最好的网络营销软件
  • 网站建设可以资本化吗疫情放开最新消息今天
  • 信誉好的丹徒网站建设手机百度seo怎么优化
  • 个人网站备案办理拍照查询网站备案信息
  • 旅游社网站建设规划书长沙互联网网站建设
  • icp备案网站名称百度商业平台官网
  • 万州网站建设果园路成都网站关键词推广
  • 昆明网站建设是什么产品软文范例软文
  • 广州专业网站设计太原seo公司
  • 网站推广系统设计小红书关键词优化
  • 百度上做网站推广方案如何写
  • 服务公司名称大全郑州网站推广优化公司
  • 怎么网上接网站开发单自己做优化网站排名软件
  • 怎么找网站站长十大营销策划公司排名
  • 用网站模板做新网站b站推广
  • 手机上如何做mv视频网站什么软件比百度搜索好
  • 网站开发用什么框架百度seo排名优化公司哪家好
  • 重庆网站建设哪里比较好呢百度论坛
  • 设计团队网站时事政治2023最新热点事件
  • 一句话进入wordpress东莞seo建站公司哪家好
  • 醴陵网站建设今日新闻摘抄10条简短