当前位置：首页 > news >正文

TF-IDF算法详解

news 2025/7/4 17:16:34

引言

TF-IDF（Term Frequency-Inverse Document Frequency）是信息检索和文本挖掘中常用的加权技术，用于评估一个词语对于一个文档集或语料库中某个文档的重要程度。

一、基本概念

1. 组成要素

TF-IDF由两部分组成：

TF (Term Frequency)：词频，表示词在文档中出现的频率
IDF (Inverse Document Frequency)：逆文档频率，衡量词的普遍重要性

2. 核心思想

一个词语的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

二、算法公式

1. 词频(TF)计算

$\frac{f_{t,d}}{\sum_{t' \in d} f_{t',d}}$
其中：

$f_{t,d}$ ：词t在文档d中出现的次数
分母是文档d中所有词出现次数的总和

2. 逆文档频率(IDF)计算

$\log \frac{N}{|\{d \in D: t \in d\}|}$
其中：

$N$ ：语料库中文档总数
$|\{d \in D: t \in d\}|$ ：包含词t的文档数量

3. TF-IDF计算

$\times idf(t,D)$

三、算法步骤

预处理：
- 分词/分字
- 去除停用词
- 词干提取/词形还原（英文）
构建词袋模型：
- 创建词汇表
- 统计每个词在每个文档中的出现次数
计算TF：
- 对每个文档中的每个词计算词频
计算IDF：
- 对整个语料库计算每个词的逆文档频率
计算TF-IDF：
- 将TF和IDF值相乘
归一化（可选）：
- 对文档向量进行归一化处理

四、Python实现示例

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd# 示例文档集
documents = ["自然语言处理是人工智能的重要领域","信息检索是自然语言处理的应用之一","深度学习推动了自然语言处理的发展"
]# 创建TF-IDF向量器
vectorizer = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b")  # 中文需要调整token_pattern# 计算TF-IDF矩阵
tfidf_matrix = vectorizer.fit_transform(documents)# 转换为DataFrame展示
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(),columns=vectorizer.get_feature_names_out()
)print(df_tfidf)

五、算法变体与改进

1. TF变体

原始计数： $tf(t,d) = f_{t,d}$
对数缩放： $tf(t,d) = \log(1 + f_{t,d})$
布尔频率： $t f (t, d) = 1$ (如果t在d中出现)

2. IDF变体

平滑IDF： $\log \frac{N}{1 + |\{d \in D: t \in d\}|} + 1$
最大IDF： $\log \frac{\max_{t'} |\{d \in D: t' \in d\}|}{1 + |\{d \in D: t \in d\}|}$

3. 归一化方法

余弦归一化： $\frac{tfidf(t,d,D)}{\sqrt{\sum_{t' \in d} tfidf(t',d,D)^2}}$
L2归一化：向量除以它的L2范数

六、应用场景

文本相似度计算
文档分类/聚类
关键词提取
搜索引擎排序
推荐系统

七、优缺点分析

优点：

简单有效，计算效率高
考虑了词在文档中的局部重要性和全局重要性
适用于多种文本挖掘任务

缺点：

无法捕捉词序信息（词袋模型限制）
不能处理一词多义和多词一义问题
对低频词可能过于敏感
无法利用词之间的语义关系

八、与其他技术的比较

TF-IDF vs 词频(TF)：
- TF-IDF考虑了词的全局分布，而TF只考虑局部频率
TF-IDF vs 词嵌入(Word2Vec等)：
- 词嵌入能捕捉语义关系，TF-IDF不能
- TF-IDF解释性更强
TF-IDF vs BM25：
- BM25是TF-IDF的改进版，考虑了文档长度等因素

九、实际应用注意事项

预处理的重要性：
- 停用词处理
- 词干提取/词形还原
- 大小写统一处理
稀疏性问题：
- 高维稀疏矩阵的处理
- 考虑使用截断SVD等降维技术
参数调优：
- max_features：限制特征数量
- min_df/max_df：过滤低频/高频词
- ngram_range：考虑短语组合

TF-IDF虽然简单，但在许多文本处理任务中仍然是强有力的基线方法，理解其原理和实现细节对自然语言处理工作至关重要。

http://www.dtcms.com/a/171394.html

相关文章：

【Godot】使用 Shader 实现可配置圆角效果

缓存与数据库的高效读写流程解析

C++动态内存分配：从基础到最佳实践

【数据结构】线性表--链表

【Linux系统】互斥量mutex

Spring AI 实战：第八章、Spring AI Tool Calling之与时俱进

Android基于绑定的控件用法

SpringBoot的启动流程

NoSQL入门实战：MongoDB与Redis核心应用全解析

从 Java 开发到 AI 工程师：全面学习指南

【漫话机器学习系列】238.训练误差与测试误差（Training Error And Test Error）

Spring AI 实战：第十一章、Spring AI Agent之知行合一

56认知干货：智能化产业

《政治最后的日子》章节

电动调节 V 型球阀：颗粒状含碱浆液介质的完美解决方案-耀圣

原码、补码、反码、有符号整数、无符号整数

【漫话机器学习系列】239.训练错误率（Training Error Rate）

SpringBoot智能排课系统源码开发与实现

正态分布习题集 · 题目篇

2025牛客五一集训派对day4

OpenCV入门指南：从环境搭建到第一个图像处理程序

【RocketMQ Broker 相关源码】- broker 启动源码（2）

level2.5 函数高阶

气泡图、桑基图的绘制

MySQL--索引精通详解

TestBench激励与待测

驱动开发硬核特训 · Day 27（上篇）：Linux 内核子系统的特性全解析

引入spdlog后程序链接很慢

系统思考：核心价值与竞争力

Python绘制误差棒：深入解析数据的不确定性