当前位置：首页 > news >正文

python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试

news 2025/9/23 10:01:49

【1】引用

前序学习文章中，已经对拉普拉斯平滑和简单二元分类进行了初步探索，相关文章链接为：

python学智能算法（十二）|机器学习朴素贝叶斯方法初步-拉普拉斯平滑计算条件概率-CSDN博客

python学智能算法（十三）|机器学习朴素贝叶斯方法进阶-简单二元分类-CSDN博客

在实践应用中也会发现，朴素贝叶斯方法还能对文本进行分类，今天的学习目标就是学习简单的文本操作技巧，需要使用sklearn里面的CountVectorizer包。

【2】代码学习

首先是引入必要的模块或者说库：

# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer

输入待处理的文本：

# 单个文档
document = ["Python programming is fun and useful for data science."]

这里只有一个句子：Python programming is fun and useful for data science.

直接创建一个文本处理器：

# 创建向量化器
vectorizer = CountVectorizer()

CountVectorizer是 scikit-learn 库中用于文本向量化的工具，将文本转换为词频矩阵。CountVectorizer()满足默认配置：

自动将文本转为小写。
按空格分词。
不处理停用词。
只考虑单个词。

实际上，vectorizer在这里被定义为一个工具，通过这个工具才可以调用具体的文本处理命令。

然后就是：

X = vectorizer.fit_transform(document)

这里的fit_transform是由fit和transform两个命令合并在一起的快捷操作：

fit命令的作用是分析文本中有哪些词；

transform命令的作用是将文本转化为词频矩阵，有合并同类项的功能。

CountVectorizer()是类的构造函数，vectorizer是实例，fit和transform是实例方法。

然后是查看词汇表操作：

# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())

这里的vectorizer.get_feature_names_out()执行后，会按照各个词汇首字母的顺序将组成句子的词依次输出，比如上方的句子Python programming is fun and useful for data science会输出为：['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']。

最后的向量输出为：

# 查看向量表示
print("向量表示:", X.toarray())

X.toarray()本质上是输出各个词在句子中出现的次数。

比如上方的句子Python programming is fun and useful for data science，X.toarray()会输出一系列1，因为每个单词出现的频次都是1。

完整代码为：

# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer# 单个文档
document = ["Python programming is fun and useful for data science."]# 创建向量化器
vectorizer = CountVectorizer()
print('vetorizer=',vectorizer)
# 拟合并转换文档
X = vectorizer.fit_transform(document)
print('X=',X)
# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())# 查看向量表示
print("向量表示:", X.toarray())

代码运行后的输出为：

vetorizer= CountVectorizer()
X= (0, 6) 1
(0, 5) 1
(0, 4) 1
(0, 3) 1
(0, 0) 1
(0, 8) 1
(0, 2) 1
(0, 1) 1
(0, 7) 1
词汇表: ['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']
向量表示: [[1 1 1 1 1 1 1 1 1]]

【3】代码测试

实际上要想测试代码非常简单，只需要改变初始句子即可，比如把句子改成：

# 单个文档
document = ["Python programming is fun and useful for data science and math."]

此时的输出就会变成：

词汇表: ['and' 'data' 'for' 'fun' 'is' 'math' 'programming' 'python' 'science'
'useful']
向量表示: [[2 1 1 1 1 1 1 1 1 1]]

显然，出现了两个and后，向量表示的频次会自动增加。

【4】细节说明

代码中文本后面的点号不是必须的。

【5】总结

学习了CountVectorizer文本处理的简单应用。

查看全文

http://www.dtcms.com/a/254852.html

CD45.【C++ Dev】STL库的list的使用

前端基础知识CSS系列 - 14（CSS提高性能的方法）

windows,java后端开发常用软件的下载，使用配置

Spring MVC参数绑定终极手册：单多参对象集合JSON文件上传精讲

Python 开发环境全栈隔离架构：从 Anaconda 到 PyCharm 的四级防护体系

mcp-server-chart Quickstart

Android中Native向System Service进行Binder通信的示例

Tensorflow推理时遇见PTX错误，安装CUDA及CuDNN, 解决问题！

C++实现手写strlen函数

什么是池化

图像特征检测算法ORB

C语言标准I/O库详解：文件操作与缓冲区机制

vscode设置代码字体

【PX30 Qt 5.15 交叉编译环境搭建完整指南】

动态规划：砝码称重（01背包-闫氏DP分析法）

SVN本地使用--管理个人仓库

CSS语法中的选择器与属性详解

vs code配置go开发环境以及问题解决 could not import cannot find package in GOROOT or GOPATH

Linux》》Shell脚本基本语法

Apptrace如何帮我精准追踪移动广告效果？

Kernel K-means：让K-means在非线性空间“大显身手”

Java数据结构——第 2 章线性表学习笔记

哈夫曼树Python实现

目标检测之YOLOV11谈谈OBB

maven项目无远程仓库开发配置（无外网、无maven私服）

“本地化思维+模块化体验”：一款轻量数据中心监控系统的真实测评

angular 图斑点击，列表选中并滚动到中间位置

【目标检测】IOU的概念与Python实例解析

SQL分片工具类

Stable Diffusion 实战-手机壁纸制作第二篇：优化那些“崩脸”和“马赛克”问题，让图像更加完美！

【1】引用

【2】代码学习

【3】代码测试

【4】细节说明

【5】总结

相关文章：