神经网络之从向量空间角度理解PPMI矩阵
🧩 一、起点:共现矩阵的向量空间
在共现矩阵 (M) 中,每个单词 (w_i) 是一个行向量:
wi⃗=[C(wi,w1),C(wi,w2),…,C(wi,wN)] \vec{w_i} = [C(w_i, w_1), C(w_i, w_2), \ldots, C(w_i, w_N)] wi=[C(wi,w1),C(wi,w2),…,C(wi,wN)]
每个维度表示与某个词的共现次数。
于是所有词都被嵌入在一个**高维计数空间(count space)**里。
✏️ 举例
假设我们的词表为:
({吃, 苹果, 狗, 汪汪, 书, 的})
| 目标词\上下文 | 吃 | 苹果 | 狗 | 汪汪 | 书 | 的 |
|---|---|---|---|---|---|---|
| 吃 | 0 | 20 | 0 | 0 | 1 | 10 |
| 苹果 | 20 | 0 | 0 | 0 | 0 | 15 |
| 狗 | 0 | 0 | 0 | 10 | 0 | 12 |
| 汪汪 | 0 | 0 | 10 | 0 | 0 | 8 |
| 书 | 1 | 0 | 0 | 0 | 0 | 14 |
| 的 | 10 | 15 | 12 | 8 | 14 | 0 |
在这个“计数空间”里:
- “的” 向量很大,因为它几乎跟所有词都共现;
- “吃”“苹果”之间有较高值,但仍被“的”拉高整体权重;
- 方向和距离主要受频率控制,而非语义。
因此:
这个空间被“高频词”主导,语义结构模糊、压扁、模糊不清。
⚙️ 二、经过 PPMI 转换后的变化
PPMI 做的变换是:
Mij′=max(logP(wi,wj)P(wi)P(wj),0) M'_{ij} = \max\left(\log\frac{P(w_i, w_j)}{P(w_i)P(w_j)}, 0\right) Mij′=max(logP(wi)P(wj)P(wi,wj),0)
数学上相当于:
- 对每个维度进行对数“拉伸”;
- 按概率独立性进行归一;
- 把负值(低于随机共现)截断为 0。
🧭 几何变化(重点)
| 几何变化 | 含义 |
|---|---|
| 重标度 (Rescaling) | 高频词维度被压缩,低频但有意义的维度被放大。 |
| 拉伸语义方向 | 相似语义的词(如“吃–苹果”“狗–汪汪”)在向量空间中更靠近。 |
| 消除共频背景噪声 | “的”“是”对应的维度几乎被清零,不再影响词向量距离。 |
| 稀疏但语义聚集 | 非零维度更少,但这些维度更能代表真实语义关系。 |
📊 用二维直觉表示
我们可以想象语义空间中的点:
| 语义类别 | 共现矩阵空间 | PPMI空间(语义增强后) |
|---|---|---|
| 食物相关(吃、苹果) | 靠得不太近,被“的”干扰 | 明显靠近,形成“食物簇” |
| 动物相关(狗、汪汪) | 距离混乱,被频词拉远 | 聚集在另一个方向,形成“动物簇” |
| 功能词(的、是) | 占据中心,吸引所有词 | 被推向原点(信息量≈0) |
🧠 直观理解
从共现矩阵到 PPMI矩阵,就像是:
- 去掉背景光、增强关键特征
- 把词语点云从“频率云”变成“语义星团”
即:
- 共现空间:词云混乱,方向由频率决定;
- PPMI空间:方向代表语义邻近(吃–苹果在同方向,狗–汪汪在另一方向)。
📈 三、向量几何的具体变化
设:
- 共现空间向量:(wi⃗)(\vec{w_i})(wi)
- PPMI空间向量:(wi′⃗)(\vec{w_i'})(wi′)
则几何性质的变化可以总结为:
| 性质 | 共现空间 | PPMI空间 |
|---|---|---|
| 向量长度(范数) | 与词频强相关 | 与语义特异性相关 |
| 向量方向 | 混杂,受常用词维度影响 | 稳定,方向表达语义类别 |
| 向量夹角 | 不反映语义 | 反映语义相似度(余弦相似度有效) |
| 稀疏度 | 稠密(频词填充) | 稀疏(只保留有意义维度) |
🧭 四、语义空间的结构变化(简图说明)
想象二维图示:
共现矩阵空间: PPMI空间(语义放大):
(频率主导,模糊) (语义主导,清晰)的 | | 狗● 汪汪●吃● | 苹果● 吃● 苹果●| (食物簇) (动物簇)||
在 PPMI 空间中:
- “吃”“苹果”靠得更近;
- “狗”“汪汪”靠得更近;
- “的”退回中心附近,不再影响语义分布。
✅ 五、总结:空间层面的“语义放大”
| 层面 | 共现矩阵 | PPMI矩阵 |
|---|---|---|
| 向量含义 | 共现次数 | 语义关联强度 |
| 空间结构 | 频率主导,模糊 | 语义主导,分簇 |
| 几何表现 | 向量方向杂乱,距离不代表语义 | 向量方向反映语义类别 |
| 功能词作用 | 拉拢所有词,掩盖语义 | 被压缩到原点 |
| 整体效果 | “统计空间” | “语义空间” |
💡一句话总结:
PPMI 把“共现统计的云团”几何地重新拉伸,使向量间的空间距离更接近语义距离。
