当前位置：首页 > news >正文

【NLP】 3. Distributional Similarity in NLP（分布式相似性）

news 2025/7/1 22:18:00

Distributional Similarity in NLP（分布式相似性）

分布式相似性（Distributional Similarity） 是自然语言处理（NLP）中的核心概念，基于“相似的单词出现在相似的上下文中”这一假设。它用于衡量单词之间的相似性，广泛应用于词向量、信息检索、文本分类等任务。

1. 分布式假设（Distributional Hypothesis）

分布式相似性基于以下假设：

“You shall know a word by the company it keeps.”
—— J. R. Firth (1957)

即，两个单词如果经常出现在相似的上下文中，那么它们的语义相似。
例如：

“猫” 和 “狗” 经常出现在 “宠物”、“喜欢吃”、“可爱”等词的上下文中，因此它们的意义接近。
“汽车” 和 “自行车” 都出现在 “交通工具”、“驾驶”、“速度” 等上下文中，因此它们可能具有相似性。

2. 计算分布式相似性的方法

2.1 共现矩阵（Co-occurrence Matrix）

最基础的分布式相似性计算方法是共现矩阵：

统计一个词与不同词的共现次数，形成一个词-词矩阵。
每个单词的向量由其共现次数构成。

示例：

词	猫	狗	汽车	自行车	可爱	速度
猫	5	3	0	0	10	0
狗	3	5	0	0	8	0
汽车	0	0	6	4	0	10
自行车	0	0	4	6	0	9

问题：

稀疏性：矩阵可能非常大，大量词对没有共现。
维度灾难：单词的维度取决于整个词汇表大小，计算开销大。

2.2 词向量（Word Embeddings）

为了解决稀疏性问题，使用低维向量表示单词：

基于共现矩阵的降维方法
- PCA（主成分分析）
- SVD（奇异值分解）
- PPMI（正点互信息）
预测式方法（Neural-based Models）
- Word2Vec（CBOW & Skip-Gram）
- GloVe（基于矩阵分解）
- FastText（子词信息）
- BERT & Transformer Embeddings（上下文相关词向量）

示例：

from gensim.models import Word2Vec

# 训练 Word2Vec
sentences = [["猫", "喜欢", "鱼"], ["狗", "喜欢", "骨头"], ["汽车", "行驶", "速度", "快"]]
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, sg=0)

# 获取 "猫" 的词向量
vector = model.wv["猫"]
print(vector)