当前位置：首页 > wzjs >正文

厦门做网站多少钱网络推广渠道排名

wzjs 2025/8/3 0:11:43

厦门做网站多少钱,网络推广渠道排名,互联网营销师挣的是谁的钱,石河子网站制作🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者：K同学啊 | 接辅导、项目定制一、我的环境 1.语言环境：Python 3.8 2.编译器：Pycharm 3.深度学习环境： torch1.12.1cu113torchvision…

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊 | 接辅导、项目定制

一、我的环境

1.语言环境：Python 3.8

2.编译器：Pycharm

3.深度学习环境：

torch==1.12.1+cu113
torchvision==0.13.1+cu113

二、安装Gensim库

pip install gensim

三、对原始语料分词

选择《人民的名义》的小说原文作为语料，先采用jieba进行分词。这里是直接添加的自定义词汇，没有选择创建自定义词汇文件。

import jieba.analysejieba.suggest_freq('沙瑞金', True)  # 加入一些词，使得jieba分词准确率更高
jieba.suggest_freq('田国富', True)
jieba.suggest_freq('高育良', True)
jieba.suggest_freq('侯亮平', True)
jieba.suggest_freq('钟小艾', True)
jieba.suggest_freq('陈岩石', True)
jieba.suggest_freq('欧阳菁', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大路', True)
jieba.suggest_freq('蔡成功', True)
jieba.suggest_freq('孙连城', True)
jieba.suggest_freq('季昌明', True)
jieba.suggest_freq('丁义珍', True)
jieba.suggest_freq('郑西坡', True)
jieba.suggest_freq('赵东来', True)
jieba.suggest_freq('高小琴', True)
jieba.suggest_freq('赵瑞龙', True)
jieba.suggest_freq('林华华', True)
jieba.suggest_freq('陆亦可', True)
jieba.suggest_freq('刘新建', True)
jieba.suggest_freq('刘庆视', True)
jieba.suggest_freq('赵德汉', True)
with open('./data.txt', encoding='utf-8') as f:result_cut = []lines = f.readlines()for line in lines:result_cut.append(list(jieba.cut(line)))f.close()

结果：

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ldq\AppData\Local\Temp\jieba.cache
Loading model cost 0.313 seconds.
Prefix dict has been built successfully.

四、添加自定义停用词

stopwords_list = [",", "。", "\n", "\u3000", " ", ":", "!", "?","…"]  # \u3000 是一个 Unicode 编码的字符，它代表一个全角的空白字符，通常在中文文本中用作空格。def remove_stopwords(ls):  # 去除停用词return [word for word in ls if word not in stopwords_list]result_stop = [remove_stopwords(x) for x in result_cut if remove_stopwords(x)]
print(result_stop[100:103])

结果：

[['侯亮平', '也', '很', '幽默', '，', '一把', '抓住', '了', '赵德汉', '的', '手', '：', '哎', '，', '赵', '处长', '，', '我', '既', '来', '了', '还', '真', '舍不得', '和', '你', '马上', '就', '分手', '哩', '！', '咱们', '去', '下', '一个点', '吧', '！', '说', '罢', '，', '从', '赵家', '桌上', '杂物', '筐', '里', '准确', '地', '拿出', '一张', '白色', '门卡', '，', '插到', '了', '赵德汉', '的', '上衣', '口袋', '里'], ['赵德汉', '慌', '了', '，', '忙', '把门', '卡往', '外', '掏', '：', '这', '这', '什么', '呀', '这', '是', '？'], ['你', '帝京', '苑', '豪宅', '的', '门', '卡', '啊', '！', '请', '继续', '配合', '我们', '执行公务', '吧', '！']]

五、训练Word2Vec模型

from gensim.models import Word2Vecmodel = Word2Vec(result_stop,  # 用于训练的语料数据vector_size=100,  # 是指特征向量的维度，默认为100window=5,  # 一个句子中当前单词和被预测单词的最大距离min_count=1)  # 可以对字典做截断，词频少于min_count次数的单词会被丢弃掉，默认值为5

六、模型应用

num_class  = len(label_name)
vocab_size = len(vocab)
em_size    = 64
model      = TextClassificationModel(vocab_size, em_size, num_class).to(device)

1.计算词汇相似度

print(model.wv.similarity('沙瑞金', '季昌明'))
print(model.wv.similarity('沙瑞金', '田国富'))
for e in model.wv.most_similar(positive=['沙瑞金'], topn=5):print(e[0], e[1])

结果：

0.99802387
0.99903405

李达康 0.9997692108154297
情况 0.9997009634971619
欧阳菁 0.9996625781059265
又 0.9995917677879333
学生 0.9995916485786438

2.找出不匹配的词汇

odd_word = model.wv.doesnt_match(["苹果", "香蕉", "橙子", "书"])
print(f"在这组词汇中不匹配的词汇：{odd_word}")

结果：

在这组词汇中不匹配的词汇：书

3.计算词汇的词频

word_frequency = model.wv.get_vecattr("沙瑞金", "count")
print(f"沙瑞金：{word_frequency}")

结果：沙瑞金：353

查看全文

http://www.dtcms.com/wzjs/196153.html

石材网站建设独立站seo推广

30天网站建设视频教程百度智能建站系统

微信公众号推广运营广州网站seo公司

阿克苏网站建设咨询国外推广网站

济宁高端网站建设百度推广效果

做网站广告公司联系方式百度小说免费阅读

网站上传wordpress百度官网首页入口

做企业网站代码那种好免费手机网站自助建站

公司网站建设价格表免费网站安全软件大全

做公司官方网站关键词排名查询软件

网站建好怎么发布网站查询工具seo

日报做的地方网站宁波网站推广找哪家公司

肇庆网站开发哪家专业厦门seo公司

企业如何在工商网站上做公示百度企业查询

做外汇网站卖判刑多少年厦门关键词优化网站

公司的网站建设规划书百度提交网址多久才会收录

网站建设文化代理商现在最好的免费的建站平台

类似建设b站网站百度竞价排名推广

wordpress哪个主题广东seo推广哪里好

比较好看的网站广州谷歌seo

做营销策划要用到哪些网站重庆seo技术分享

上海企乐网站制作公司软文发稿网

做最好的美食分享网站互联网产品推广

网站开发的中期工作seo优化网站网页教学

wordpress订阅插件上海seo有哪些公司

中兴建设基金管理有限公司网站线上运营推广

dz论坛网站建设百度小说搜索风云榜排行榜

好的高端企业网站建设公司怎样进行seo

南昌网站备案网站推广引流最快方法

凡科做的网站怎么改壁纸推广和竞价代运营