当前位置：首页 > wzjs >正文

钢笔工具网站企业门户网站的设计与实现

wzjs 2025/7/27 20:20:30

钢笔工具网站,企业门户网站的设计与实现,武汉软装设计公司,内部oa管理系统【1】引用前序学习文章中，已经对拉普拉斯平滑和简单二元分类进行了初步探索，相关文章链接为： python学智能算法（十二）|机器学习朴素贝叶斯方法初步-拉普拉斯平滑计算条件概率-CSDN博客 python学智能算法&#xff0…

【1】引用

前序学习文章中，已经对拉普拉斯平滑和简单二元分类进行了初步探索，相关文章链接为：

python学智能算法（十二）|机器学习朴素贝叶斯方法初步-拉普拉斯平滑计算条件概率-CSDN博客

python学智能算法（十三）|机器学习朴素贝叶斯方法进阶-简单二元分类-CSDN博客

在实践应用中也会发现，朴素贝叶斯方法还能对文本进行分类，今天的学习目标就是学习简单的文本操作技巧，需要使用sklearn里面的CountVectorizer包。

【2】代码学习

首先是引入必要的模块或者说库：

# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer

输入待处理的文本：

# 单个文档
document = ["Python programming is fun and useful for data science."]

这里只有一个句子：Python programming is fun and useful for data science.

直接创建一个文本处理器：

# 创建向量化器
vectorizer = CountVectorizer()

CountVectorizer是 scikit-learn 库中用于文本向量化的工具，将文本转换为词频矩阵。CountVectorizer()满足默认配置：

自动将文本转为小写。
按空格分词。
不处理停用词。
只考虑单个词。

实际上，vectorizer在这里被定义为一个工具，通过这个工具才可以调用具体的文本处理命令。

然后就是：

X = vectorizer.fit_transform(document)

这里的fit_transform是由fit和transform两个命令合并在一起的快捷操作：

fit命令的作用是分析文本中有哪些词；

transform命令的作用是将文本转化为词频矩阵，有合并同类项的功能。

CountVectorizer()是类的构造函数，vectorizer是实例，fit和transform是实例方法。

然后是查看词汇表操作：

# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())

这里的vectorizer.get_feature_names_out()执行后，会按照各个词汇首字母的顺序将组成句子的词依次输出，比如上方的句子Python programming is fun and useful for data science会输出为：['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']。

最后的向量输出为：

# 查看向量表示
print("向量表示:", X.toarray())

X.toarray()本质上是输出各个词在句子中出现的次数。

比如上方的句子Python programming is fun and useful for data science，X.toarray()会输出一系列1，因为每个单词出现的频次都是1。

完整代码为：

# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer# 单个文档
document = ["Python programming is fun and useful for data science."]# 创建向量化器
vectorizer = CountVectorizer()
print('vetorizer=',vectorizer)
# 拟合并转换文档
X = vectorizer.fit_transform(document)
print('X=',X)
# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())# 查看向量表示
print("向量表示:", X.toarray())

代码运行后的输出为：

vetorizer= CountVectorizer()
X= (0, 6) 1
(0, 5) 1
(0, 4) 1
(0, 3) 1
(0, 0) 1
(0, 8) 1
(0, 2) 1
(0, 1) 1
(0, 7) 1
词汇表: ['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']
向量表示: [[1 1 1 1 1 1 1 1 1]]

【3】代码测试

实际上要想测试代码非常简单，只需要改变初始句子即可，比如把句子改成：

# 单个文档
document = ["Python programming is fun and useful for data science and math."]

此时的输出就会变成：

词汇表: ['and' 'data' 'for' 'fun' 'is' 'math' 'programming' 'python' 'science'
'useful']
向量表示: [[2 1 1 1 1 1 1 1 1 1]]

显然，出现了两个and后，向量表示的频次会自动增加。

【4】细节说明

代码中文本后面的点号不是必须的。

【5】总结

学习了CountVectorizer文本处理的简单应用。

查看全文

http://www.dtcms.com/wzjs/78481.html

网站三级栏目影响百度seo按天计费

珠海澳门网站建设优化大师手机版下载

郑州专业网站建设单页网站制作

德州网站设计汕头网站推广

云盘做网站空间网络营销机构官方网站

检查网站死链接百度竞价运营

广州建设网站平台系统优化软件

海城网站制作建设免费数据统计网站

响应式网站后台网络营销的发展概述

做音乐网站的目的和意义如何制作百度网页

代理注册公司网站模版seo品牌

浙江杭州最新消息乐陵市seo关键词优化

网站被qq拦截做301如何营销推广自己的产品

网站登录怎么做推广app平台有哪些

在智联招聘网站做销售北京seo分析

网站必须做电子认证吗seo外链推广员

衣联网和一起做网站哪家强如何做好口碑营销

乐清市建设规划局网站网页设计怎么做

规划建立一个网站免费crm网站不用下载的软件

自己做的网站怎么上传百度贴吧网页入口

贵阳网站设计找哪家郑州seo技术代理

启东做网站google ads

网站做推广被禁止访问了宁波好的seo外包公司

易游网络验证代理平台四川百度推广和seo优化

丹东企业做网站seo策略

医疗软件网站建设公司chrome官网下载

wordpress 发文章api广东优化疫情防控措施

网站建设保障机制杭州seo渠道排名

做网站所需要的代码google关键词

支付网站建设费用计入推广app的单子都在哪里接的

【1】引用

【2】代码学习

【3】代码测试

【4】细节说明

【5】总结

相关文章：