Sklearn 机器学习 文本数据 TF-IDF实现文本向量化
💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖
本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】
Sklearn 机器学习 | 使用 TF-IDF 实现文本向量化
在自然语言处理(NLP)中,文本向量化是将原始文本转换为数值形式的关键步骤,而 TF-IDF(Term Frequency - Inverse Document Frequency)是其中最常见的一种方法,被广泛应用于文本分类、搜索引擎、推荐系统等任务。
本文将介绍如何使用 Sklearn 中的 TfidfVectorizer
对中文文本进行向量化处理,并解释相关参数和实现细节,帮助你构建可靠的文本特征工程流程。
🧠 一、什么是 TF-IDF?
TF-IDF 是衡量一个词对于某篇文档的重要程度的一种统计指标,核心思想是:
- TF(词频):某个词在当前文档中出现的频率。
- IDF(逆文档频率):该词在整个语料库中出现的稀有程度。
计算公式如下:
-
TF(t, d) = 词 t 在文档 d 中出现的次数 / 文档 d 的总词数
-
IDF(t) = log((总文档数 + 1) / (包含词 t 的文档数 + 1)) + 1
👉 Sklearn 默认采用这种 平滑处理方式,避免除以零或零权重的情况。 -
最终:
TF-IDF(t, d) = TF(t, d) * IDF(t)
📌 直观理解:如果某个词在当前文档中频繁出现,但在其他文档中很少出现,则说明它对该文档非常重要,其 TF-IDF 值就会较高。