当前位置：首页 > wzjs >正文

多种语言网站如何推广seo

wzjs 2025/8/7 17:55:25

多种语言网站,如何推广seo,昆明哪些做网站建设的公司,做音乐下载网站【1】引用前序学习文章中，已经对拉普拉斯平滑和简单二元分类进行了初步探索，相关文章链接为： python学智能算法（十二）|机器学习朴素贝叶斯方法初步-拉普拉斯平滑计算条件概率-CSDN博客 python学智能算法&#xff0…

【1】引用

前序学习文章中，已经对拉普拉斯平滑和简单二元分类进行了初步探索，相关文章链接为：

python学智能算法（十二）|机器学习朴素贝叶斯方法初步-拉普拉斯平滑计算条件概率-CSDN博客

python学智能算法（十三）|机器学习朴素贝叶斯方法进阶-简单二元分类-CSDN博客

在实践应用中也会发现，朴素贝叶斯方法还能对文本进行分类，今天的学习目标就是学习简单的文本操作技巧，需要使用sklearn里面的CountVectorizer包。

【2】代码学习

首先是引入必要的模块或者说库：

# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer

输入待处理的文本：

# 单个文档
document = ["Python programming is fun and useful for data science."]

这里只有一个句子：Python programming is fun and useful for data science.

直接创建一个文本处理器：

# 创建向量化器
vectorizer = CountVectorizer()

CountVectorizer是 scikit-learn 库中用于文本向量化的工具，将文本转换为词频矩阵。CountVectorizer()满足默认配置：

自动将文本转为小写。
按空格分词。
不处理停用词。
只考虑单个词。

实际上，vectorizer在这里被定义为一个工具，通过这个工具才可以调用具体的文本处理命令。

然后就是：

X = vectorizer.fit_transform(document)

这里的fit_transform是由fit和transform两个命令合并在一起的快捷操作：

fit命令的作用是分析文本中有哪些词；

transform命令的作用是将文本转化为词频矩阵，有合并同类项的功能。

CountVectorizer()是类的构造函数，vectorizer是实例，fit和transform是实例方法。

然后是查看词汇表操作：

# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())

这里的vectorizer.get_feature_names_out()执行后，会按照各个词汇首字母的顺序将组成句子的词依次输出，比如上方的句子Python programming is fun and useful for data science会输出为：['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']。

最后的向量输出为：

# 查看向量表示
print("向量表示:", X.toarray())

X.toarray()本质上是输出各个词在句子中出现的次数。

比如上方的句子Python programming is fun and useful for data science，X.toarray()会输出一系列1，因为每个单词出现的频次都是1。

完整代码为：

# 引入必要的模块
from sklearn.feature_extraction.text import CountVectorizer# 单个文档
document = ["Python programming is fun and useful for data science."]# 创建向量化器
vectorizer = CountVectorizer()
print('vetorizer=',vectorizer)
# 拟合并转换文档
X = vectorizer.fit_transform(document)
print('X=',X)
# 查看词汇表
print("词汇表:", vectorizer.get_feature_names_out())# 查看向量表示
print("向量表示:", X.toarray())

代码运行后的输出为：

vetorizer= CountVectorizer()
X= (0, 6) 1
(0, 5) 1
(0, 4) 1
(0, 3) 1
(0, 0) 1
(0, 8) 1
(0, 2) 1
(0, 1) 1
(0, 7) 1
词汇表: ['and' 'data' 'for' 'fun' 'is' 'programming' 'python' 'science' 'useful']
向量表示: [[1 1 1 1 1 1 1 1 1]]

【3】代码测试

实际上要想测试代码非常简单，只需要改变初始句子即可，比如把句子改成：

# 单个文档
document = ["Python programming is fun and useful for data science and math."]

此时的输出就会变成：

词汇表: ['and' 'data' 'for' 'fun' 'is' 'math' 'programming' 'python' 'science'
'useful']
向量表示: [[2 1 1 1 1 1 1 1 1 1]]

显然，出现了两个and后，向量表示的频次会自动增加。

【4】细节说明

代码中文本后面的点号不是必须的。

【5】总结

学习了CountVectorizer文本处理的简单应用。

查看全文

http://www.dtcms.com/wzjs/256379.html

珠海电商网站制作推广引流方法与渠道

互联网网站建设新闻开发网站需要多少钱

毛片a做片在线观看网站有哪些谷歌seo关键词优化

海澜之家网站建设的计划农产品网络营销

珠海做网站优化的公司投稿网站

建设网站的视频郑州网站策划

做网站还需要买空间吗网站制作网站推广

网站优化文章河南郑州最新消息今天

php网站开发百度云广西壮族自治区免费百度推广

网站搜索优化靠谱n127网推广

书籍封面设计网站艺术培训学校招生方案

泗阳做网站的淘宝店铺转让价格表

怎样在网站上做营业执照公示网络优化seo是什么工作

做软装的网站百度网盘手机版

前端注册wordpress电脑优化

易企秀怎么做网站链接独立站seo外链平台

自动引流免费appseo外包杭州

如何做b2c网站搜索引擎登录入口

网页设计与制作教程第三版张兵义优化教程网下载

搜狗推广登录入口seo自学网视频教程

杰森影像网站建设网络营销策划名词解释

庐江魅力网做网站号码北京网站建设公司优势

做网站的office平台印度疫情最新消息

湖南做网站360o营销公关

网站名称和备案公司名称不一样线上培训机构有哪些

什么网站能找到做直销的联系方式谷歌推广

网站建设空间什么系统seo搜索引擎实战详解

403网站打开免费搜狗网站

android 做电子书下载网站如何用html制作一个网页

东莞商城网站建设哪家公司靠谱免费制作永久个人网站

【1】引用

【2】代码学习

【3】代码测试

【4】细节说明

【5】总结

相关文章：