当前位置：首页 > news >正文

神经网络之PPMI矩阵

news 2025/10/30 8:31:25

🧩 一、问题回顾：为什么要用 PPMI？

在共现矩阵中，我们统计了词与词共同出现的次数。
但**“次数”并不能直接反映语义关联强度**：

高频词（如“的”“是”“一个”）会出现在几乎所有上下文里 → 共现次数大，但语义关联弱。
低频但特定搭配的词（如“苹果–吃”）共现次数少，但语义关联强。

👉 所以，我们需要一种度量能体现**“某两个词的共现是偶然还是有意义”**。

这就引出了 PMI（Pointwise Mutual Information）。

🧮 二、PMI 的定义

PMI 衡量两个事件（这里是两个词）之间的关联程度：

$PMI(w_i, w_j) = \log \frac{P(w_i, w_j)}{P(w_i) , P(w_j)}$

含义：

如果两个词独立出现，则 $P(w_i, w_j) = P(w_i) P(w_j) )$ ，PMI = 0
如果它们比独立出现更频繁地一起出现 → PMI > 0
如果它们几乎从不一起出现 → PMI < 0

🧠 举例

假设语料统计结果如下：

词对	共现次数	PMI 含义
(吃, 苹果)	很多	PMI 高（语义相关）
(吃, 书)	几乎没有	PMI 低（语义不相关）
(的, 苹果)	次数大但普遍	PMI≈0（无特异语义）

⚙️ 三、PMI 的计算公式（基于计数矩阵）

设：

$C(w_i, w_j) )：词 (w_i) 与 (w_j)$ 的共现次数
$C(w_i) = \sum_j C(w_i, w_j) )$ ：词 (w_i) 的总出现次数
$\sum_{i,j} C(w_i, w_j) )$ ：所有共现对的总次数

则：
$P(w_i, w_j) = \frac{C(w_i, w_j)}{N} \quad , \quad P(w_i) = \frac{C(w_i)}{N} \quad , \quad P(w_j) = \frac{C(w_j)}{N}$

代入：
$PMI(w_i, w_j) = \log \frac{C(w_i, w_j) \cdot N}{C(w_i) \cdot C(w_j)}$

💡 四、PPMI（正点互信息）

问题：PMI 可能为负（当两个词比随机还少共现）。
负值往往无意义且影响向量分析，于是只保留正值：

$PPMI(w_i, w_j) = \max(PMI(w_i, w_j), 0)$

即：

只保留“比随机更相关”的词对。

🧱 五、从共现矩阵 → PPMI 矩阵

假设有一个简单语料：

我 爱 吃 苹果 和 香蕉

窗口大小 = 1
共现矩阵（示意）：

目标\上下文	我	爱	吃	苹果	和	香蕉
我	0	1	0	0	0	0
爱	1	0	1	0	0	0
吃	0	1	0	1	0	0
苹果	0	0	1	0	1	0
和	0	0	0	1	0	1
香蕉	0	0	0	0	1	0

我们可依次计算：
$PPMI(w_i, w_j) = \max\left( \log \frac{C(w_i, w_j) \cdot N}{C(w_i)C(w_j)}, 0 \right)$
得到一个实数矩阵（多数值为 0，少数高关联词如 “吃–苹果” 会有较高的正值）。

🧮 六、PPMI 矩阵的特点

特点	说明
去除了频率偏差	高频功能词不再主导矩阵
凸显语义关系	“吃–苹果”“狗–汪汪”等搭配得到高权重
稀疏但信息集中	仅保留真正相关的词对
可进一步降维	用 SVD → 得到低维稠密语义向量（LSA、GloVe）

🧠 七、直觉理解

想象二维空间：

共现情况	概率	PMI/PPMI 含义
“苹果–吃” 经常一起	高于独立预期	PPMI↑，语义相关
“苹果–跑” 几乎无共现	低于独立预期	PPMI=0
“的–苹果” 经常出现但无特异性	接近独立	PPMI≈0

因此，PPMI矩阵是共现矩阵的“语义放大版”。

✅ 八、总结对比

项目	共现矩阵	PPMI矩阵
元素含义	共现次数	语义关联强度（信息量）
值域	0 ~ ∞（整数）	0 ~ 实数（通常 <10）
高频词	权重大	权重小（被修正）
语义性	弱	强
后续可操作性	可直接降维（SVD）	常作为 GloVe 的输入

http://www.dtcms.com/a/544893.html

相关文章：

部署DeepSeek-OCR

数学基础-线性代数(向量、矩阵、运算、范数、特征向量、特征值)

【运维】ubuntu修改镜像源

东莞营销型网站建设找火速昆山网站设计公司

杭州网站定制开发谁帮58同城做的网站吗

（1）起始之章：Qt初印象

【Java】理解Java内存中堆栈机制与装箱拆箱的底层逻辑

车辆管理|校园车辆信息|基于SprinBoot+vue的校园车辆管理系统(源码+数据库+文档)

JAVA课程第八次实验课程主要知识点示例

SpringBoot3集成MyBatisPlus版本问题

JVM的内存区域划分、类加载机制与垃圾回收原理

三种方法解开——力扣3370.仅含置位位的最小整数

网站建设字体变色代码义乌公司网站制作

悟空AI CRM，企业客户管理的智慧之选

在线营销型网站建设石家庄网页制作招聘信息

【Python与Matlab数据分析对比】

【问题】磁盘清理-Roaming目录

手机wap网站模板定州住房和城乡建设局网站

HOW - React 状态模块化管理和按需加载（二）- 不同状态库哲学

代理型人工智能（Agentic AI）系统带来了前所未有的安全挑战

SQlite：列级，表级约束

Rust性能优化：内存对齐与缓存友好实战

现在做网站用什么工具seo推广优化方案

“我的电脑”图标没了怎么办 4种方法找回

【架构】-- OpenFeign：声明式 HTTP 客户端框架深度解析

召开网站建设培训会seo推广排名平台有哪些

个人可以做公益网站吗百度会员

基于STM32F4系列MCU和CS5530 24位SDADC的称重传感器系统实现

一文深入学习Java动态代理-JDK动态代理和CGLIB

嵌入式开发学习日志42——stm32之SPI工作方式