当前位置：首页 > wzjs >正文

怎么看网站是哪里做的seo如何优化排名

wzjs 2025/8/15 23:31:35

怎么看网站是哪里做的,seo如何优化排名,互联网推广的优势,中山市网站建设公司>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客** >- **🍖 原作者：[K同学啊]** 本人往期文章可查阅： 深度学习总结本周任务： 1. 了解并学习NLP基础知识中的Word2vec的相关内容 2. 创建一…

>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客**
>- **🍖 原作者：[K同学啊]**

本人往期文章可查阅：深度学习总结

本周任务：

1. 了解并学习NLP基础知识中的Word2vec的相关内容

2. 创建一个 .txt 文件存放自定义词汇，防止其被切分

一、准备工作

1. 安装Gensim库

使用pip进行安装：

pip install gensim -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 对原始语料分词

选择《人民的名义》的小说原文作为语料，先采用jieba进行分词。这里是直接添加的自定义词汇，没有选择创建自定义词汇文件。

jieba.suggest_freq(word, True):
- word 是需要调整频率的词语。
- True 表示将该词语的词频调整为更高，确保在分词时能够被识别为一个完整的词。
- 这个函数的作用是告诉 jieba 分词器，这些词语是常见的、不应该被拆分的。

import jieba
import jieba.analyse# 利用for循环加入一些词，使得jieba分词准确率更高
for word in ['沙瑞金','田国富','高育良','侯亮平','钟小艾','陈岩石','欧阳菁','易学习','王大路','蔡成功','孙连成','季昌明','丁义珍','郑西坡','赵东来','高小琴','赵瑞龙','林华华','陆亦可','刘新建','赵庆祝','赵德汉']:jieba.suggest_freq(word,True)with open(r'E:/DATABASE/N-series/N7/in_the_name_of_people.txt') as f:resulu_cut=[]lines=f.readlines()for line in lines:resulu_cut.append(list(jieba.cut(line)))f.close()

运行结果：

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\cyb\AppData\Local\Temp\jieba.cache
Loading model cost 0.599 seconds.
Prefix dict has been built successfully.UnicodeDecodeError                        Traceback (most recent call last)
Cell In[1], line 1412 with open(r'E:/DATABASE/N-series/N7/in_the_name_of_people.txt') as f:13     resulu_cut=[]
---> 14     lines=f.readlines()15     for line in lines:16         resulu_cut.append(list(jieba.cut(line)))UnicodeDecodeError: 'gbk' codec can't decode byte 0xbf in position 2: illegal multibyte sequence

发现结果中存在错误，分析原因是由于Python默认使用了 GBK 编码，但文件内容可能并不是 GBK 编码，导致解码失败。故在 open 函数中指定 encoding='utf-8' 。如下所示：

这样就可以消除错误了。

# 添加自定义停用词
stopwords_list=[",","。","\n","\u3000"," ","：","！","？","…"]def remove_stopwords(ls):  # 去除停用词return [word for word in ls if word not in stopwords_list]result_stop=[remove_stopwords(x) for x in resulu_cut if remove_stopwords(x)]

拿到了分词后的文件，在一般的NLP处理中，会需要去停用词。由于word2vec的算法依赖于上下文，而上下文有可能就是停用词。因此，对于word2vec，我们可以不用去停用词，仅仅去掉一些标点符号，做一个简单的数据清洗。

现在我们可以直接读分词后的文件到内存。这里使用了word2vec提供的LineSentence类来读文件，然后套用word2vec的模型。在实际应用中，可以调参提高词的embedding的效果。

print(result_stop[100:103])

[100:103] 是 Python 的切片操作，表示从索引 100 开始，到索引 103（不包括 103）的部分。

运行结果：

[['侯亮平', '也', '很', '幽默', '一把', '抓住', '了', '赵德汉', '的', '手', '哎', '赵', '处长', '我', '既', '来', '了', '还', '真', '舍不得', '和', '你', '马上', '就', '分手', '哩', '咱们', '去', '下', '一个点', '吧', '说', '罢', '从', '赵家', '桌上', '杂物', '筐', '里', '准确', '地', '拿出', '一张', '白色', '门卡', '插到', '了', '赵德汉', '的', '上衣', '口袋', '里'], ['赵德汉', '慌', '了', '忙', '把门', '卡往', '外', '掏', '这', '这', '什么', '呀', '这', '是'], ['你', '帝京', '苑', '豪宅', '的', '门', '卡', '啊', '请', '继续', '配合', '我们', '执行公务', '吧']]

二、训练Word2Vec模型

关于Word2Vec内容可见：XXX

from gensim.models import Word2Vecmodel=Word2Vec(result_stop,  # 用于训练的语料数据vector_size=100, # 是指特征向量的维度，默认为100window=5, # 一个句子中当前单词和被预测单词的最大距离min_count=1) # 可以对字典做截断，词频少于min_count次数的单词会被丢弃掉，默认值为5

三、模型应用

1. 计算词汇相似度

我们可以使用 similarity() 方法计算两个词汇之间的余弦相似度。

# 计算两个词的相似度
print(model.wv.similarity('沙瑞金','季昌明'))
print(model.wv.similarity('沙瑞金','田国富'))

运行结果：

0.9996133
0.9993434

# 选出最相似的5个词
for e in model.wv.most_similar(positive=['沙瑞金'],topn=5):print(e[0],e[1])

运行结果：

有些 0.9997698068618774
老 0.9997424483299255
领导 0.999739944934845
像 0.9997387528419495
赵立春 0.9997326731681824

2. 找出不匹配的词汇

使用 doesnt_match() 方法，我们可以找到一组词汇中与其他词汇不匹配的词汇。

odd_word=model.wv.doesnt_match(["苹果","香蕉","橙子","书"])
print(f"在这组词汇中不匹配的词汇：{odd_word}")

运行结果：

在这组词汇中不匹配的词汇：书

3. 计算词汇的词频

我们可以使用 get_vecattr() 方法获取词汇的词频。

word_frequency=model.wv.get_vecattr("沙瑞金","count")
print(f"沙瑞金：{word_frequency}")

运行结果：

沙瑞金：353

四、心得体会

掌握了Gensim库的内容，理解了其使用过程。

查看全文

http://www.dtcms.com/wzjs/360760.html

龙华民治网站建设公司宝塔建站系统

网络工程规划与设计seo的方式有哪些

小程序用什么软件开发seo推广关键词公司

江苏亿之盛建设有限公司网站优化关键词快速排名

数据库与动态网站开发实验报告网络营销的营销理念

无锡怎么做网站推广百度关键词挖掘工具

wordpress商业源码seo网站推广实例

网站发帖百度收录seo职位招聘

ps如何做网站seo优化网络公司

学网站制作多少钱创建网页步骤

建筑工程网站定制友情链接是什么意思

知名营销网站开发网站域名怎么查询

开展建设文明网站活动方案百度提问在线回答问题

上海网站制作免费个人自助建站

做电商看的网站有哪些制作一个app软件需要多少钱

委托建设网站账务处理百度电脑版

建个企业网站多少钱百度爱采购平台登录

无极磁力优化关键词的步骤

怎样做档口批发网站网推一手单渠道

查看公司股票的网站网络营销的推广手段

武汉光谷网站建设公司谷歌优化的网络公司

网站建设这个目前最新推广平台

建设电子商务网站的基本步骤百度认证号码平台

兰溪自适应网站建设特点查询收录

网站防注入怎么办seo优化报价公司

辽宁数据网站建设哪家便宜网站推广优化设计方案

制作网站软件app常用的网络推广方式有哪些

云服务器安装网站荥阳seo推广

网站开发情况广告商对接平台

网站静态页面访问很快php页面访问非常慢品牌推广策划书范文案例

一、准备工作

1. 安装Gensim库

2. 对原始语料分词

二、训练Word2Vec模型

三、模型应用

1. 计算词汇相似度

2. 找出不匹配的词汇

3. 计算词汇的词频

四、心得体会

相关文章：