当前位置: 首页 > news >正文

网站设计就业前景分析网站支付接口

网站设计就业前景分析,网站支付接口,企业级网站开发与部署,网站建设 51下拉本文分别整合 CountVectorizer 和 TfidfVectorizer 绘制词云图 ✨ CountVectorizer CountVectorizer 是 scikit-learn 中用于 文本特征提取 的一个工具,它的主要作用是将一组文本(文本集合)转换为词频向量(Bag-of-Words&#xf…

本文分别整合 CountVectorizer 和 TfidfVectorizer 绘制词云图

✨ CountVectorizer

CountVectorizerscikit-learn 中用于 文本特征提取 的一个工具,它的主要作用是将一组文本(文本集合)转换为词频向量(Bag-of-Words,词袋模型)

简单来说:

CountVectorizer 会把文本中的每一个词(token)当作特征,然后统计每个词在每个文本中出现的次数,最终输出一个稀疏矩阵表示文本的“词频”。

🔧 作用与功能详解:

  1. 分词:自动将每个句子切分成词(默认以空格分割,也可以自定义分词器)。
  2. 构建词典:对整个语料中所有出现的词汇建立一个词汇表(字典)。
  3. 向量化:将每个文本表示为一个向量,每个维度是某个词在该文本中出现的次数。

📚 应用场景:

  • 文本分类(如垃圾邮件识别、情感分析)
  • 文本聚类
  • 信息检索
  • 自然语言处理(NLP)中的特征工程

⚠️ 注意:

  • CountVectorizer 不考虑词语顺序,即是典型的“词袋模型”。
  • 它也不考虑语义(两个同义词视为不同词)。
  • 你可以设置 max_featuresstop_wordsngram_range 等参数来优化结果。

✨ TfidfVectorizer

TfidfVectorizer 是 scikit-learn 提供的一个类,用于将原始文本转化为TF-IDF 特征矩阵,常用于文本分类、聚类、信息检索等任务。

🧠 TF-IDF 是什么?

TF-IDF = Term Frequency - Inverse Document Frequency

它是一种权重计算方法,用来衡量某个词对某个文档的重要性。

📌 1. TF(词频)公式:

T F ( t , d ) = 词  t 在文档  d 中出现的次数 文档  d 中总词数 TF(t, d) = \frac{\text{词 } t \text{ 在文档 } d \text{ 中出现的次数}}{\text{文档 } d \text{ 中总词数}} TF(t,d)=文档 d 中总词数 t 在文档 d 中出现的次数

表示某个词在文档中出现的频率。

📌 2. IDF(逆文档频率)公式:

I D F ( t ) = log ⁡ ( 1 + N 1 + D F ( t ) ) + 1 IDF(t) = \log \left( \frac{1 + N}{1 + DF(t)} \right) + 1 IDF(t)=log(1+DF(t)1+N)+1

  • ( N ):语料库中的总文档数
  • ( DF(t) ):包含词 ( t ) 的文档数量

这个公式会让出现在越少文档中的词权重越高,因为它更能“区别”文档。

📌 3. TF-IDF 综合计算:

T F - I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t) TF-IDF(t,d)=TF(t,d)×IDF(t)

⚙️ 常用参数解释

参数名含义
ngram_range=(1, 2)提取 uni-gram 和 bi-gram
max_df=0.85忽略出现在超过85%文档中的词
min_df=2忽略出现在少于2个文档中的词
stop_words='english'去除英文停用词(中文需自定义)
tokenizer自定义分词函数(适用于中文,结合 jieba)
use_idf=True是否使用逆文档频率
smooth_idf=True是否进行平滑(避免分母为0)

🧪 中文处理建议

因为 TfidfVectorizer 默认不适合中文,需要配合 jieba 分词:

import jiebadef chinese_tokenizer(text):return jieba.lcut(text)vectorizer = TfidfVectorizer(tokenizer=chinese_tokenizer)
X = vectorizer.fit_transform(docs)

📊 输出样例

假设你有:

docs = ["我 爱 你", "你 爱 他", "他 爱 我"]

输出的 TF-IDF 词向量矩阵如下:

文档索引
Doc10.700.500.500
Doc200.500.500.70
Doc30.500.5000.70

CountVectorizer vs TfidfVectorizer

特性CountVectorizerTfidfVectorizer
核心思想统计词频(TF)统计 TF × IDF
向量值每个词的出现次数每个词的重要性权重
词频高是否意味着重要不一定(可能是常见词)
适用场景适合简单建模(如朴素贝叶斯)更适合文本分类、信息检索等
是否考虑语料库整体信息❌ 只考虑当前文档✅ 考虑所有文档的分布
是否支持平滑✅ 支持平滑处理

✨ 什么是 n-gram?

n-gram 是指连续的 n 个词。例如:

  • 输入句子:"I love machine learning"
  • 1-gram(unigram): "I", "love", "machine", "learning"
  • 2-gram(bigram): "I love", "love machine", "machine learning"
  • 3-gram(trigram): "I love machine", "love machine learning"

🛠️ ngram_range=(min_n, max_n) 说明

  • ngram_range=(1, 1):只提取 1-gram(默认)
  • ngram_range=(1, 2):提取 1-gram 和 2-gram
  • ngram_range=(2, 3):提取 2-gram 和 3-gram

✅ 示例代码

from sklearn.feature_extraction.text import CountVectorizertext = ["I love machine learning"]# 提取1-gram和2-gram
vectorizer = CountVectorizer(ngram_range=(1, 2))
X = vectorizer.fit_transform(text)print(vectorizer.get_feature_names_out())
print(X.toarray())

输出结果:

['i' 'i love' 'learning' 'love' 'love machine' 'machine' 'machine learning']
[[1 1 1 1 1 1 1]]

这表示:

  • 单个词(unigram)和两个词组合(bigram)都被统计了。

🎯 使用场景建议

  • ngram_range=(1, 2):适合大多数 NLP 应用,可以捕捉常见词和短语搭配。
  • ngram_range=(2, 2):适合挖掘关键词对(如“机器 学习”)
  • ngram_range=(2, 3):更强调上下文结构,但维度较高,需要更多数据支持。

⚠️ 注意:

  • 提取更多的 n-gram 会导致维度爆炸(特征太多),要结合 max_featuresmin_df 限制特征数量。
  • 高阶 n-gram 更稀疏,也更依赖大规模语料支持。

✨ 词云可视化

安装相关的依赖

pip install wordcloud scikit-learn matplotlib

代码

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
import matplotlib.pyplot as plt
from wordcloud import WordCloud# 示例文本
texts = ["Natural language processing is fun and exciting.","Machine learning and deep learning are key techniques in AI.","I love studying machine learning and natural language tasks.",
]# 初始化向量器,提取 1-gram 到 2-gram,可以使用CountVectorizer或TfidfVectorizer
vectorizer = CountVectorizer(ngram_range=(1, 2), stop_words='english')
# vectorizer = TfidfVectorizer(ngram_range=(1, 2), stop_words='english')X = vectorizer.fit_transform(texts)# 提取关键词和其对应的 分数值,对于 TF-IDF 是分数值,对于 CountVectorizer 是频率值
feature_names = vectorizer.get_feature_names_out()
print("Features:", feature_names)# 每个词语在所有文档中分数的总和
_scores = X.sum(axis=0).A1# 构建关键词:权重的字典
word_dict = dict(zip(feature_names, _scores))# 生成词云图
wordcloud = WordCloud(width=800, height=400, background_color='white').generate_from_frequencies(word_dict)# 显示图形
plt.figure(figsize=(12, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.title("TF-IDF Weighted WordCloud (1-2 gram)")
plt.show()

运行结果
在这里插入图片描述

http://www.dtcms.com/a/510161.html

相关文章:

  • 郑州网站推广报价永久免费不收费的软件app
  • 重庆景点图片搜索引擎优化的主题
  • 公司微信网站开发平台WordPress做漫画网站
  • 福州建网站哪家公司好成全视频免费观看在线观看高清动漫
  • 网站建站推广是啥意思深圳app网站建设哪家好
  • 天蝎网站推广优化营销知识和技巧
  • 更换模板对网站seo的影响淮南 网站建设 有限公司
  • 郑州网站哪家好怎样进行站点优化
  • 学习做网站建设的学校体育新闻最新消息
  • 网站视觉设计平面设计实例网站
  • 上海手工活外发加工网温州seo优化公司
  • 毕业设计指导网站开发vi设计获奖作品
  • 广州网站建设信科分公司天津网站建设 易尔通
  • 福州网站专业建设wordpress批量导入文章cvs
  • 石家庄市建设网站京东联盟的网站怎么做的
  • 临沂恒商做网站长沙网站列表
  • 南京网站建设公司有哪些国内做网站制作比较
  • 简约淘宝网站模板免费下载苏州市建设中心网站
  • 网站建设山东聚搜网络潍坊哪里能找到做网站的
  • 语言教学网站建设课程总结seo内容优化是什么意思
  • 建设银行网站个人银行上不去建一个网站大约需要花费多少钱
  • 如何创建一个网站链接网站建设购买
  • 第一次装wordpress怎么做百度seo网站
  • 清湖做网站的手机ui设计是什么
  • 怎么做网站怎么引入广告挣钱作品设计
  • 网站不换域名换空间ps做网站好看的logo
  • 广州市建设企业网站价格常用的seo工具推荐
  • 网站制作洋网络建设人行官方网站
  • 网站编辑面试高明专业网站建设报价
  • 微信开放平台开发文档山西seo推广方案