当前位置: 首页 > news >正文

神经网络之从向量空间角度理解PPMI矩阵

🧩 一、起点:共现矩阵的向量空间

共现矩阵 (M) 中,每个单词 (w_i) 是一个行向量:

wi⃗=[C(wi,w1),C(wi,w2),…,C(wi,wN)] \vec{w_i} = [C(w_i, w_1), C(w_i, w_2), \ldots, C(w_i, w_N)] wi=[C(wi,w1),C(wi,w2),,C(wi,wN)]

每个维度表示与某个词的共现次数。
于是所有词都被嵌入在一个**高维计数空间(count space)**里。


✏️ 举例

假设我们的词表为:
({吃, 苹果, 狗, 汪汪, 书, 的})

目标词\上下文苹果汪汪
02000110
苹果20000015
00010012
汪汪0010008
1000014
1015128140

在这个“计数空间”里:

  • “的” 向量很大,因为它几乎跟所有词都共现;
  • “吃”“苹果”之间有较高值,但仍被“的”拉高整体权重;
  • 方向和距离主要受频率控制,而非语义。

因此:

这个空间被“高频词”主导,语义结构模糊、压扁、模糊不清。


⚙️ 二、经过 PPMI 转换后的变化

PPMI 做的变换是:

Mij′=max⁡(log⁡P(wi,wj)P(wi)P(wj),0) M'_{ij} = \max\left(\log\frac{P(w_i, w_j)}{P(w_i)P(w_j)}, 0\right) Mij=max(logP(wi)P(wj)P(wi,wj),0)

数学上相当于:

  • 对每个维度进行对数“拉伸”;
  • 按概率独立性进行归一;
  • 把负值(低于随机共现)截断为 0。

🧭 几何变化(重点)

几何变化含义
重标度 (Rescaling)高频词维度被压缩,低频但有意义的维度被放大。
拉伸语义方向相似语义的词(如“吃–苹果”“狗–汪汪”)在向量空间中更靠近。
消除共频背景噪声“的”“是”对应的维度几乎被清零,不再影响词向量距离。
稀疏但语义聚集非零维度更少,但这些维度更能代表真实语义关系。

📊 用二维直觉表示

我们可以想象语义空间中的点:

语义类别共现矩阵空间PPMI空间(语义增强后)
食物相关(吃、苹果)靠得不太近,被“的”干扰明显靠近,形成“食物簇”
动物相关(狗、汪汪)距离混乱,被频词拉远聚集在另一个方向,形成“动物簇”
功能词(的、是)占据中心,吸引所有词被推向原点(信息量≈0)

🧠 直观理解

从共现矩阵到 PPMI矩阵,就像是:

  • 去掉背景光、增强关键特征
  • 把词语点云从“频率云”变成“语义星团”

即:

  • 共现空间:词云混乱,方向由频率决定;
  • PPMI空间:方向代表语义邻近(吃–苹果在同方向,狗–汪汪在另一方向)。

📈 三、向量几何的具体变化

设:

  • 共现空间向量:(wi⃗)(\vec{w_i})(wi)
  • PPMI空间向量:(wi′⃗)(\vec{w_i'})(wi)

则几何性质的变化可以总结为:

性质共现空间PPMI空间
向量长度(范数)与词频强相关与语义特异性相关
向量方向混杂,受常用词维度影响稳定,方向表达语义类别
向量夹角不反映语义反映语义相似度(余弦相似度有效)
稀疏度稠密(频词填充)稀疏(只保留有意义维度)

🧭 四、语义空间的结构变化(简图说明)

想象二维图示:

共现矩阵空间:                  PPMI空间(语义放大):
(频率主导,模糊)                 (语义主导,清晰)的                              |                               |                         狗●     汪汪●吃●    | 苹果●                   吃●   苹果●|                        (食物簇)  (动物簇)||

在 PPMI 空间中:

  • “吃”“苹果”靠得更近;
  • “狗”“汪汪”靠得更近;
  • “的”退回中心附近,不再影响语义分布。

✅ 五、总结:空间层面的“语义放大”

层面共现矩阵PPMI矩阵
向量含义共现次数语义关联强度
空间结构频率主导,模糊语义主导,分簇
几何表现向量方向杂乱,距离不代表语义向量方向反映语义类别
功能词作用拉拢所有词,掩盖语义被压缩到原点
整体效果“统计空间”“语义空间”

💡一句话总结:
PPMI 把“共现统计的云团”几何地重新拉伸,使向量间的空间距离更接近语义距离。

http://www.dtcms.com/a/544894.html

相关文章:

  • 神经网络之PPMI矩阵
  • 部署DeepSeek-OCR
  • 数学基础-线性代数(向量、矩阵、运算、范数、特征向量、特征值)
  • 【运维】ubuntu修改镜像源
  • 东莞营销型网站建设找火速昆山网站设计公司
  • 杭州网站定制开发谁帮58同城做的网站吗
  • (1)起始之章:Qt初印象
  • 【Java】理解Java内存中堆栈机制与装箱拆箱的底层逻辑
  • 车辆管理|校园车辆信息|基于SprinBoot+vue的校园车辆管理系统(源码+数据库+文档)
  • JAVA课程第八次实验课程主要知识点示例
  • SpringBoot3集成MyBatisPlus版本问题
  • JVM的内存区域划分、类加载机制与垃圾回收原理
  • 三种方法解开——力扣3370.仅含置位位的最小整数
  • 网站建设字体变色代码义乌公司网站制作
  • 悟空AI CRM,企业客户管理的智慧之选
  • 在线营销型网站建设石家庄网页制作招聘信息
  • 【Python与Matlab数据分析对比】
  • 【问题】磁盘清理-Roaming目录
  • 手机wap网站模板定州住房和城乡建设局网站
  • HOW - React 状态模块化管理和按需加载(二)- 不同状态库哲学
  • 代理型人工智能(Agentic AI)系统带来了前所未有的安全挑战
  • SQlite:列级,表级约束
  • Rust性能优化:内存对齐与缓存友好实战
  • 现在做网站用什么工具seo推广优化方案
  • “我的电脑”图标没了怎么办 4种方法找回
  • 【架构】-- OpenFeign:声明式 HTTP 客户端框架深度解析
  • 召开网站建设培训会seo推广排名平台有哪些
  • 个人可以做公益网站吗百度会员
  • 基于STM32F4系列MCU和CS5530 24位SDADC的称重传感器系统实现
  • 一文深入学习Java动态代理-JDK动态代理和CGLIB