当前位置：首页 > news >正文

从代码学习深度学习 - 全局向量的词嵌入（GloVe）PyTorch版

news 2025/9/19 5:19:55

文章目录

前言
带全局语料统计的跳元模型
GloVe模型
从条件概率比值理解GloVe模型
总结

前言

在自然语言处理（NLP）的广阔天地中，如何让计算机理解人类语言的丰富内涵，一直是核心挑战。词嵌入（Word Embedding）技术为此提供了优雅的解决方案，它将词语映射到低维、稠密的向量空间中，使得语义相近的词在空间中的距离也相近。

我们之前已经熟悉了像Word2Vec这样的模型，它通过局部上下文窗口来学习词向量。然而，Word2Vec的视野有限，它一次只能看到一个小的上下文窗口，忽略了语料库中丰富的全局统计信息。

今天，我们将深入探讨另一种强大的词嵌入模型——GloVe（Global Vectors for Word Representation）。顾名思义，GloVe旨在融合两类词嵌入方法的优点：既能利用word2vec强大的局部上下文预测能力，又能结合LSA（Latent Semantic Analysis）等矩阵分解方法利用全局统计信息的能力。它通过对全局的“词-词共现矩阵”进行高效的学习，捕捉词语之间更深层次的语义关系。

本篇文章将详细拆解GloVe模型的数学原理，从它与跳元模型（Skip-gram）的联系出发，逐步揭示其巧妙的设计思想。虽然标题中带有“PyTorch版”，但理解其背后的数学原理是进行任何代码实现前至关重要的一步。让我们一起开始这场理论探索之旅吧！

原始内容:下载链接

带全局语料统计的跳元模型

要理解GloVe，我们不妨先回到熟悉的跳元模型（Skip-gram），并尝试用全局语料库的统计数据来重新审视它。

上下文窗口内的词共现可以携带丰富的语义信息。例如，在一个大型语料库中，“固体”比“气体”更有可能与“冰”共现，但“气体”一词与“蒸汽”的共现频率可能比与“冰”的共现频率更高。此外，可以预先计算此类共现的全局语料库统计数据：这可以提高训练效率。

用 $q_{ij}$ 表示词 $w_j$ 的条件概率 $P(w_j \mid w_i)$ ，在跳元模型中给定中心词 $w_i$ ，我们有：

$q_{ij}=\frac{\exp(\mathbf{u}_j^\top \mathbf{v}_i)}{ \sum_{k \in \mathcal{V}} \text{exp}(\mathbf{u}_k^\top \mathbf{v}_i)}$

其中，对于任意索引 $i$ ，向量 $\mathbf{v}_i$ 和 $\mathbf{u}_i$ 分别表示词 $w_i$ 作为中心词和上下文词的向量，且 $\mathcal{V} = \{0, 1, \ldots, |\mathcal{V}|-1\}$ 是词表的索引集。

[图片：一个中心词（如“learning”）及其上下文窗口（如“deep”, “from”, “code”）的示意图，突出“共现”的概念]

现在，让我们考虑整个语料库。词 $w_i$ 可能出现多次。所有以 $w_i$ 为中心词的上下文词，共同构成一个词索引的多重集 $\mathcal{C}_i$ （允许元素重复）。我们将多重集 $\mathcal{C}_i$ 中元素 $j$ 的重复次数（重数）表示为 $x_{ij}$ 。这其实就是词 $w_j$ （作为上下文词）与词 $w_i$ （作为中心词）在整个语料库的同一上下文窗口中的全局共现计数。