当前位置: 首页 > wzjs >正文

wordpress 安装主题后高级seo优化招聘

wordpress 安装主题后,高级seo优化招聘,维度 网站建设,青岛网站建设设计本文为🔗365天深度学习训练营内部文章 原作者:K同学啊 一、Word2Vec是什么? 自然语言处理(NLP)是一种涉及到处理语言文本的计算机技术。在 NLP 中,最小的处理单位是词语,词语是语言文本的基本组成部分。词语组成句子&a…

本文为🔗365天深度学习训练营内部文章

原作者:K同学啊

 

一、Word2Vec是什么?

自然语言处理(NLP)是一种涉及到处理语言文本的计算机技术。在 NLP 中,最小的处理单位是词语,词语是语言文本的基本组成部分。词语组成句子,句子再组成段落、篇章、文档,因此处理 NLP 问题的第一步是要对词语进行处理。
在进行 NLP 问题处理时,一个常见的任务是判断一个词的词性,即动词还是名词等等。这可以通过机器学习来实现。具体地,我们可以构建一个映射函数 f(x)->y,其中 x 是词语,y是它们的词性。为了使用机器学习模型,需要将词语转换成数值形式。然而,在NLP 中,词语是人类的抽象总结,是符号形式的 (比如中文、英文、拉丁文等等),不是数值形式的,因此需要将它们嵌入到一个数学空间中,这个过程就是词嵌入(word embedding)。
词嵌入是将词语映射到一个向量空间中的过程,使得相似的词在向量空间中距离较近,而不相似的词距离较远。**Word2Vec则是其中的一种词嵌入方法,是一种用于生成词向量的浅层神经网络模型**,由Tomas Mikolov及其团队于2013年提出。**Word2Vec通过学习大量文本数据,将每个单词表示为一个连续的向量,这些向量可以捕捉单词之间的语义和句法关系**。Word2Vec有两种主要架构:连续词袋模型(Continuous Bag of Words,CBOW)和Skip-Gram模型。

二、CBOW模型

CBOW(Continuous Bag of Words)模型是通过上下文来预测当前值。相当于一句话中扣掉一个词,让你猜这个词是什么。 ​ 具体来说,CBOW 模型首先将输入的词语转换为词向量,然后将这些词向量相加得到一个向量表示这个向量表示就是当前上下文的表示。最后,CBOW 模型使用这个向量表示来预测目标词语的概率分布。CBOW 模型的核心思想是根据上下文预测当前词语,因此它通常适用于训练数据中目标词语出现频率较高的情况。  

 

三、Skip-gram模型

Skip-gram 模型用当前词来预测上下文。相当于给你一个词,让你猜前面和后面可能出现什么词。 ​ 具体来说,Skip-gram 模型首先将目标词语转换为它的词向量,然后使用这个词向量来预测它周围的词语。Skip-gram 模型的核心思想是利用目标词语来预测上下文,因此它通常适用于训练数据中目标词语出现频率较低的情况。

 

 

Skip-gram 模型和 CBOW 模型的训练过程都是基于反向传播算法和随机梯度下降算法实现的。在训练过程中,两个模型都会通过不断地更新词向量来最小化损失函数,使得目标词语和它周围的词语在向量空间中距离更近。最终,训练完成后,每个词语都被嵌入到了一个低维向量空间中,这些向量可以用于各种NLP 任务,如语言模型、词性标注、文本分类等等。  

四、实例解答

实例:假设我们有以下句子作为训练语料:

"The quick brown fox jumps over the lazy dog."

对于Skip-gram模型,假设我们选择窗口大小为2(即在目标单词前后各取2个单词作为上下文)。以单词"jump"为例,我们将有以下训练样本:

输入:jumps 输出:(quick,brown,over,the)

这些训练样本用于调整词向量,使得给定单词"jumps"时,上下文单词的概率最大化

而对于CBOW模型,训练样本是相反的:

输入:(quick,brown,over,the) 输出:jumps

在这种情况下,CBOW模型会根据上下文来预测目标单词"jumps"

训练完成后,每个单词都会被赋予一个词向量,这些词向量可以用于后续的NLP任务,如文本分类、聚类、相似度计算等。一个有趣的现象是,词向量之间的数学运算可以揭示单词之间的语义关系,例如:

 

五、调用Gensim库实现Word2vec模型

1.对原始语料进行分词

 

import jieba
import jieba.analysejieba.suggest_freq('沙瑞金',True)  # 加入一些词,使得jieba分词准确率更高
jieba.suggest_freq('田国富',True)
jieba.suggest_freq('高育良',True)
jieba.suggest_freq('侯亮平',True)
jieba.suggest_freq('钟小艾',True)
jieba.suggest_freq('陈岩石',True)
jieba.suggest_freq('欧阳菁',True)
jieba.suggest_freq('易学习',True)
jieba.suggest_freq('王大路',True)
jieba.suggest_freq('蔡成功',True)
jieba.suggest_freq('孙连城',True)
jieba.suggest_freq('季昌明',True)
jieba.suggest_freq('丁义珍',True)
jieba.suggest_freq('郑西坡',True)
jieba.suggest_freq('赵东来',True)
jieba.suggest_freq('高小琴',True)
jieba.suggest_freq('赵瑞龙',True)
jieba.suggest_freq('林华华',True)
jieba.suggest_freq('陆亦可',True)
jieba.suggest_freq('刘新建',True)
jieba.suggest_freq('刘庆祝',True)
jieba.suggest_freq('赵德汉',True)# 读取文件
with open('./in_the_name_of_people.txt',encoding='utf-8') as f:result_cut = []lines = f.readlines()for line in lines:result_cut.append(list(jieba.cut(line)))
f.close()

 

# 添加自定义停用词
stopwords_list = [",","。","\n","\u3000"," ",":",":","!","?","?","!","…","……"]def remove_stopwords(ls):    # 去除停用词return [word for word in ls if word not in stopwords_list]result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]
print(result_stop[100:103])from gensim.models import Word2Vecmodel = Word2Vec(result_stop,    # 用于训练的语料数据vector_size=100,    # 是指特征向量的维度,默认为100window=5,    # 一个句子中当前单词和被预测单词的最大距离min_count=1      # 可以对字典做截断,词频少于min_count次数的单词会被丢弃掉,默认是5
)'''
模型应用
'''
# 1.计算词汇相似度
print(model.wv.similarity('沙瑞金','田国富'))
print(model.wv.similarity('沙瑞金','高育良'))

# 选出最相近的10个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=10):print(e[0],e[1])

 

2)找出不匹配的词汇

使用 doesnt_match()方法,我们可以找到一组词汇中与其他词汇不匹配的词汇

 

# 2.找出不匹配的词汇
odd_word = model.wv.doesnt_match(["沙瑞金","侯亮平","丁义珍","书"])
print(f'在这组词汇中不匹配的词汇:{odd_word}')# 3.计算词语的词频
word_freq = model.wv.get_vecattr('沙瑞金','count')
print(f'沙瑞金:{word_freq}')
word_freq = model.wv.get_vecattr('田国富','count')
print(f'田国富:{word_freq}')
word_freq = model.wv.get_vecattr('高育良','count')
print(f'高育良:{word_freq}')

 

http://www.dtcms.com/wzjs/439062.html

相关文章:

  • 自驾游网站建设营销公司取名字大全
  • 佛山免费网站建设软文代写发布网络
  • 美橙互联网站后台百度网盘人工客服电话
  • 网站做搜索关键字好吗广告文案经典范例200字
  • 可以和朋友合资做网站吗独立站优化
  • 云南个旧建设局网站seo网站优化多少钱
  • 医院营销策略的具体方法seo模板建站
  • JAVA做的小型网站有哪些seo收费标准多少
  • 使用java做新闻网站思路网络营销是以什么为基础
  • 广州市建设集团网站首页花钱推广的网络平台
  • 宁波网站推广厂家排名网站网络推广推广
  • 网络工程师需要什么证书信阳seo
  • 做宠物网站需要实现什么功能百度怎么打广告在首页
  • 怎么做购物平台网站网页设计
  • 工程建设的招标在哪个招标网站手机百度下载
  • 深圳网站建设维护广告网络推广
  • 前端容易被裁还是后端最专业的seo公司
  • ipa文件自己网站怎么做下载优化大师apk
  • wordpress目标关键词关键词优化计划
  • 龙岗做手机网站网站移动端优化工具
  • 赣州网站建设哪家便宜网站之家
  • 环保空调东莞网站建设重庆网页优化seo
  • 云南能投基础设施投资开发建设有限公司网站推广通
  • 口碑好的网站建设多少钱门户网站怎么做
  • 西地那非一粒能硬几天二十条优化
  • 专门做app的原型网站网址搜索引擎
  • 辽宁移动网站宁德市有几个区几个县
  • 做网站3个月google浏览器官网下载
  • 合肥中小企业网站制作线上营销渠道主要有哪些
  • 宁波网站制作维护备案域名购买