当前位置: 首页 > wzjs >正文

wordpress 显示置顶文章什么是网站流量优化

wordpress 显示置顶文章,什么是网站流量优化,app下载登录,优秀创意广告设计赏析【1】引用 前序学习文章中,已经对拉普拉斯平滑和简单二元分类进行了初步探索,相关文章链接为: python学智能算法(十二)|机器学习朴素贝叶斯方法初步-拉普拉斯平滑计算条件概率-CSDN博客 python学智能算法&#xff0…

【1】引用

前序学习文章中,已经对拉普拉斯平滑和简单二元分类进行了初步探索,相关文章链接为:

python学智能算法(十二)|机器学习朴素贝叶斯方法初步-拉普拉斯平滑计算条件概率-CSDN博客

python学智能算法(十三)|机器学习朴素贝叶斯方法进阶-简单二元分类-CSDN博客

在实践应用中也会发现,朴素贝叶斯方法还能对文本进行分类,今天的学习目标就是学习简单的文本操作技巧,需要使用sklearn里面的CountVectorizer包。

【2】代码学习

首先是引入必要的模块或者说库:

# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer

输入待处理的文本:

# 单个文档
document = ["Python programming is fun and useful for data science."]

这里只有一个句子:Python programming is fun and useful for data science.

直接创建一个文本处理器:

# 创建向量化器
vectorizer = CountVectorizer()

CountVectorizer是 scikit-learn 库中用于文本向量化的工具,将文本转换为词频矩阵。CountVectorizer()满足默认配置:

  • 自动将文本转为小写。
  • 按空格分词。
  • 不处理停用词。
  • 只考虑单个词。
  •  

实际上,vectorizer在这里被定义为一个工具,通过这个工具才可以调用具体的文本处理命令。

然后就是:

X = vectorizer.fit_transform(document)

这里的fit_transform是由fit和transform两个命令合并在一起的快捷操作:

fit命令的作用是分析文本中有哪些词;

transform命令的作用是将文本转化为词频矩阵,有合并同类项的功能。

CountVectorizer()是类的构造函数,vectorizer是实例,fit和transform是实例方法。

然后是查看词汇表操作:

# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())

这里的vectorizer.get_feature_names_out()执行后,会按照各个词汇首字母的顺序将组成句子的词依次输出,比如上方的句子Python programming is fun and useful for data science会输出为:['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']。

最后的向量输出为:

# 查看向量表示
print("向量表示:", X.toarray())

X.toarray()本质上是输出各个词在句子中出现的次数。

比如上方的句子Python programming is fun and useful for data science,X.toarray()会输出一系列1,因为每个单词出现的频次都是1。

完整代码为:

# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer# 单个文档
document = ["Python programming is fun and useful for data science."]# 创建向量化器
vectorizer = CountVectorizer()
print('vetorizer=',vectorizer)
# 拟合并转换文档
X = vectorizer.fit_transform(document)
print('X=',X)
# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())# 查看向量表示
print("向量表示:", X.toarray())

代码运行后的输出为:

vetorizer= CountVectorizer()
X=   (0, 6)    1
  (0, 5)    1
  (0, 4)    1
  (0, 3)    1
  (0, 0)    1
  (0, 8)    1
  (0, 2)    1
  (0, 1)    1
  (0, 7)    1
词汇表: ['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']
向量表示: [[1 1 1 1 1 1 1 1 1]]

【3】代码测试

实际上要想测试代码非常简单,只需要改变初始句子即可,比如把句子改成:

# 单个文档
document = ["Python programming is fun and useful for data science and math."]

此时的输出就会变成:

词汇表: ['and' 'data' 'for' 'fun' 'is' 'math' 'programming' 'python' 'science'
 'useful']
向量表示: [[2 1 1 1 1 1 1 1 1 1]]

显然,出现了两个and后,向量表示的频次会自动增加。

 【4】细节说明

代码中文本后面的点号不是必须的。

【5】总结

学习了CountVectorizer文本处理的简单应用。

 


文章转载自:

http://ao8ApW1i.tgtsg.cn
http://mOVvRSiI.tgtsg.cn
http://JYlgWeA9.tgtsg.cn
http://r0uFfu3I.tgtsg.cn
http://uJW4zTXI.tgtsg.cn
http://8qdIO2IZ.tgtsg.cn
http://a6EkcfsX.tgtsg.cn
http://cORcNbm2.tgtsg.cn
http://eO0ipxBc.tgtsg.cn
http://0FEhcYM8.tgtsg.cn
http://PXp0wEpo.tgtsg.cn
http://nhexwyBG.tgtsg.cn
http://jCXmTdFw.tgtsg.cn
http://Uh2i1s0a.tgtsg.cn
http://c4itmOsK.tgtsg.cn
http://p3Jqnxs1.tgtsg.cn
http://8mK8ecsF.tgtsg.cn
http://VyQ6CvEo.tgtsg.cn
http://wKX2NOeM.tgtsg.cn
http://BSY149LN.tgtsg.cn
http://M0WKGDuG.tgtsg.cn
http://LxoqjnWx.tgtsg.cn
http://6Bt0NWn7.tgtsg.cn
http://hKlIYbQi.tgtsg.cn
http://xmB2YIYy.tgtsg.cn
http://05LQGItf.tgtsg.cn
http://n6DmLbAY.tgtsg.cn
http://AZEw0Xeo.tgtsg.cn
http://blpJd6kZ.tgtsg.cn
http://saowmcqP.tgtsg.cn
http://www.dtcms.com/wzjs/690917.html

相关文章:

  • 自己买服务器搭建网站黄页直播免费观看大全网站
  • 网站 固定ip英国做暧小视频网站
  • 深圳网站公司注册网站开发询价单
  • 梅州做网站医药招商网站大全
  • 在公司网站投简历该怎么做长宁房产网站建设
  • 个人网站开发项目报告江西省赣州市中考成绩查询时间
  • 游泳池建设有专门的网站吗快影
  • 2345网站登录做网站是否用数据库
  • 工作室网站建设方案模板网站首页点击中文英文链接 翻译成对应的语言 怎么做
  • 淘客网站做单品类win7怎么重新安装wordpress
  • 上海营销型网站建设平台百度一下百度搜索百度一下
  • 快速建站公司地址河南省新闻联播视频
  • 深圳做手机商城网站wordpress登录qq微信登录界面
  • 做类似猪八戒网的网站网站群建设进度
  • 英国免费做网站为企业策划一次网络营销活动
  • 南三环做网站的公司跳转到另一个网站怎么做
  • 房产网站怎么建设重庆新华网
  • 虚拟币交易网站开发网络营销该如何发展
  • 桥东网站建设要想提高网站排名应该如何做
  • 色系网站哪里有老网站用新域名
  • 医院门户网站开发博客可以做网站收录用的吗
  • 网站的维护工作内容wordpress如何设置cdn
  • 深圳专业企业网站建设seo网站架构设计
  • 烟台装修公司网站建设wordpress主题添加设置页面
  • pc访问手机网站跳转企业网站建设找智恒网络
  • html网站开发相关书籍群晖 wordpress
  • 最新网站源码下载营销推广运营
  • 健身房网站模板设计公司网站建设费用
  • 网站建设协议需要注意的问题最专业的营销网站建设公司排名
  • 制作做的网站如何上传网上用自己的网站做淘客