当前位置: 首页 > wzjs >正文

做花馍网站济南网络优化厂家

做花馍网站,济南网络优化厂家,自己写代码做网站,何做百度推广网站🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者:K同学啊 本周任务:使用N1周的.txt文件构建词典,停用词请自定义 1.导入数据 from torchtext.vocab import build_vocab_from_iterator from co…
  • 🍨 本文为🔗365天深度学习训练营中的学习记录博客
  • 🍖 原作者:K同学啊

本周任务:使用N1周的.txt文件构建词典,停用词请自定义

1.导入数据

from torchtext.vocab import build_vocab_from_iterator
from collections import Counter
from torchtext.data.utils import get_tokenizer
import jieba, re, torchdata = ["我是K同学啊!","我是一个深度学习博主,","这是我的365天深度学习训练营教案,","你可以通过百度、微信搜索关键字【K同学啊】找到我"
]

2.设置分词器

# 中文分词方法
tokenizer = jieba.lcut# 加载自定义词典
jieba.load_userdict("D:/learn/my_dict.txt")

jieba是一个由python编写的中文分词库,用于对中文文本进行分词,其安装方法:

cmd命令:pip install jieba

my_dict.txt文件内容如下:

3.清除标点符号与停用词

在使用jieba进行分词时,可以通过去除标点符号来减少分词结果种的噪音。

# 去除标点符号的函数
def remove_punctuation(text):return re.sub(r'[^\w\s]', '', text)

在使用jieba进行分词时,可以通过去除停用词(即没有具体含义、对文本语义没有影响的词汇,如“的”、“是”、“这”)来减少分词结果中的噪音。标点符号与停用词的去除通常有助于提高文本分类任务的结果。

# 假设我们有一个停用词表,内容如下:
stopwords = set(["的", "这", "是"])# 去除停用词的函数
def remove_stopwords(words):return [word for word in words if word not in stopwords]

4.设置迭代器

# 定义一个迭代器来返回文本数据中的词汇
def yield_tokens(data_iter):for text in data_iter:# 去除标点符号text = remove_punctuation(text)# 分词并生成词汇text = tokenizer(text)# 去除停用词text = remove_stopwords(text)yield text

5.构建词典

# 使用 build_vocab_from_iterator 来构建词汇表
vocab = build_vocab_from_iterator(yield_tokens(data), specials=["<unk>"])# 将未知的词汇索引为0
vocab.set_default_index(vocab["<unk>"])

.build_vocab_from_iterator()函数详解

作用:从一个可迭代对象中统计token的频次,并返回一个vocab(词汇字典) 

6.文本数字化

# 打印词汇表中的内容
print("词典大小:", len(vocab))
print("词典内部映射:", vocab.get_stoi())text = "这是我的365天深度学习训练营教案"
words = remove_stopwords(jieba.lcut(text))
print("\n")
print("jieba分词后的文本: ", jieba.lcut(text))
print("去除停用词后的文本: ", remove_stopwords(jieba.lcut(text)))
print("数字化后的文本: ", [vocab[word] for word in words])

结果:

 查了很多资料,依旧没有解决这个问题。但通过看别人的帖子,理解了算法的原理。

7.总结

1.遇到的问题

解决:

pip install torchtext

2.掌握了如何从文本数据中提取词汇,并通过去除标点符号和停用词来减少噪音。还学会了如何使用jieba进行中文分词,并通过自定义词典来优化分词结果。可能因为torchtext与电脑配置冲突,一直无法运行到最后一步,就差一点点。。。

http://www.dtcms.com/wzjs/278086.html

相关文章:

  • 做网站的服务器有哪些如何找友情链接
  • 深圳做外贸网站的公司外贸企业网站制作哪家好
  • 做网站规划十大网络推广公司排名
  • 网页设计与制作论文1000字网站seo推广计划
  • 云存储做网站快速排名新
  • 做购物平台网站需要多少资金微平台推广
  • 5条国内最新新闻百度快速收录seo工具软件
  • 建站公司电话推广通
  • 找公司做网站怎么图片都要自己找qq空间刷赞推广网站
  • 类似红盟的网站怎么做互联网营销师证书有用吗
  • pyhton可以做网站吗企业网站设计价格
  • 深圳做网站推荐哪家公司百度搜索关键词排行榜
  • 给网站设置关键词推广技巧
  • 漳州做网站的公司怎么做免费的网站推广
  • 北京网站怎么优化百度收录快的发帖平台
  • dede门户网站模版友链交易平台
  • 网站开发安全性分析教育培训机构排名
  • 深圳网站建设968今日刚刚发生的新闻
  • 网页设计与网站建设 pdf完整企业网站模板
  • 成都建设网站费用免费服务器
  • 做网站优化的关键词怎么设置举例一个成功的网络营销案例
  • 多语言外贸网站建设dsp投放方式
  • 怎样切图做网站seo网站推广批发
  • 长春哪个做网站的公司比较靠谱宁波网站seo哪家好
  • 广西建设科技与建筑节能协会网站百度推广一年大概多少钱
  • 怎么看网站被降权手机百度助手
  • 电商网站有哪些功能网络推广产品公司
  • 国外做油画的网站saas建站
  • 广州网站开发解决方案江门seo
  • 广州市住房城乡建设委官方网站如何建造一个网站