当前位置: 首页 > news >正文

神经网络之PPMI矩阵

🧩 一、问题回顾:为什么要用 PPMI?

共现矩阵中,我们统计了词与词共同出现的次数。
但**“次数”并不能直接反映语义关联强度**:

  • 高频词(如“的”“是”“一个”)会出现在几乎所有上下文里 → 共现次数大,但语义关联弱。
  • 低频但特定搭配的词(如“苹果–吃”)共现次数少,但语义关联强。

👉 所以,我们需要一种度量能体现**“某两个词的共现是偶然还是有意义”**。

这就引出了 PMI(Pointwise Mutual Information)


🧮 二、PMI 的定义

PMI 衡量两个事件(这里是两个词)之间的关联程度

PMI(wi,wj)=log⁡P(wi,wj)P(wi),P(wj) PMI(w_i, w_j) = \log \frac{P(w_i, w_j)}{P(w_i) , P(w_j)} PMI(wi,wj)=logP(wi),P(wj)P(wi,wj)

含义:

  • 如果两个词独立出现,则 (P(wi,wj)=P(wi)P(wj))( P(w_i, w_j) = P(w_i) P(w_j) )(P(wi,wj)=P(wi)P(wj)),PMI = 0
  • 如果它们比独立出现更频繁地一起出现 → PMI > 0
  • 如果它们几乎从不一起出现 → PMI < 0

🧠 举例

假设语料统计结果如下:

词对共现次数PMI 含义
(吃, 苹果)很多PMI 高(语义相关)
(吃, 书)几乎没有PMI 低(语义不相关)
(的, 苹果)次数大但普遍PMI≈0(无特异语义)

⚙️ 三、PMI 的计算公式(基于计数矩阵)

设:

  • (C(wi,wj)):词(wi)与(wj)( C(w_i, w_j) ):词 (w_i) 与 (w_j)(C(wi,wj)):词(wi)(wj) 的共现次数
  • (C(wi)=∑jC(wi,wj))( C(w_i) = \sum_j C(w_i, w_j) )(C(wi)=jC(wi,wj)):词 (w_i) 的总出现次数
  • (N=∑i,jC(wi,wj))( N = \sum_{i,j} C(w_i, w_j) )(N=i,jC(wi,wj)):所有共现对的总次数

则:
P(wi,wj)=C(wi,wj)N,P(wi)=C(wi)N,P(wj)=C(wj)N P(w_i, w_j) = \frac{C(w_i, w_j)}{N} \quad , \quad P(w_i) = \frac{C(w_i)}{N} \quad , \quad P(w_j) = \frac{C(w_j)}{N} P(wi,wj)=NC(wi,wj),P(wi)=NC(wi),P(wj)=NC(wj)

代入:
PMI(wi,wj)=log⁡C(wi,wj)⋅NC(wi)⋅C(wj) PMI(w_i, w_j) = \log \frac{C(w_i, w_j) \cdot N}{C(w_i) \cdot C(w_j)} PMI(wi,wj)=logC(wi)C(wj)C(wi,wj)N


💡 四、PPMI(正点互信息)

问题:PMI 可能为负(当两个词比随机还少共现)。
负值往往无意义且影响向量分析,于是只保留正值:

PPMI(wi,wj)=max⁡(PMI(wi,wj),0) PPMI(w_i, w_j) = \max(PMI(w_i, w_j), 0) PPMI(wi,wj)=max(PMI(wi,wj),0)

即:

只保留“比随机更相关”的词对


🧱 五、从共现矩阵 → PPMI 矩阵

假设有一个简单语料:

我 爱 吃 苹果 和 香蕉

窗口大小 = 1
共现矩阵(示意):

目标\上下文苹果香蕉
010000
101000
010100
苹果001010
000101
香蕉000010

我们可依次计算:
PPMI(wi,wj)=max⁡(log⁡C(wi,wj)⋅NC(wi)C(wj),0) PPMI(w_i, w_j) = \max\left( \log \frac{C(w_i, w_j) \cdot N}{C(w_i)C(w_j)}, 0 \right) PPMI(wi,wj)=max(logC(wi)C(wj)C(wi,wj)N,0)
得到一个实数矩阵(多数值为 0,少数高关联词如 “吃–苹果” 会有较高的正值)。


🧮 六、PPMI 矩阵的特点

特点说明
去除了频率偏差高频功能词不再主导矩阵
凸显语义关系“吃–苹果”“狗–汪汪”等搭配得到高权重
稀疏但信息集中仅保留真正相关的词对
可进一步降维用 SVD → 得到低维稠密语义向量(LSA、GloVe)

🧠 七、直觉理解

想象二维空间:

共现情况概率PMI/PPMI 含义
“苹果–吃” 经常一起高于独立预期PPMI↑,语义相关
“苹果–跑” 几乎无共现低于独立预期PPMI=0
“的–苹果” 经常出现但无特异性接近独立PPMI≈0

因此,PPMI矩阵是共现矩阵的“语义放大版”


✅ 八、总结对比

项目共现矩阵PPMI矩阵
元素含义共现次数语义关联强度(信息量)
值域0 ~ ∞(整数)0 ~ 实数(通常 <10)
高频词权重大权重小(被修正)
语义性
后续可操作性可直接降维(SVD)常作为 GloVe 的输入
http://www.dtcms.com/a/544893.html

相关文章:

  • 部署DeepSeek-OCR
  • 数学基础-线性代数(向量、矩阵、运算、范数、特征向量、特征值)
  • 【运维】ubuntu修改镜像源
  • 东莞营销型网站建设找火速昆山网站设计公司
  • 杭州网站定制开发谁帮58同城做的网站吗
  • (1)起始之章:Qt初印象
  • 【Java】理解Java内存中堆栈机制与装箱拆箱的底层逻辑
  • 车辆管理|校园车辆信息|基于SprinBoot+vue的校园车辆管理系统(源码+数据库+文档)
  • JAVA课程第八次实验课程主要知识点示例
  • SpringBoot3集成MyBatisPlus版本问题
  • JVM的内存区域划分、类加载机制与垃圾回收原理
  • 三种方法解开——力扣3370.仅含置位位的最小整数
  • 网站建设字体变色代码义乌公司网站制作
  • 悟空AI CRM,企业客户管理的智慧之选
  • 在线营销型网站建设石家庄网页制作招聘信息
  • 【Python与Matlab数据分析对比】
  • 【问题】磁盘清理-Roaming目录
  • 手机wap网站模板定州住房和城乡建设局网站
  • HOW - React 状态模块化管理和按需加载(二)- 不同状态库哲学
  • 代理型人工智能(Agentic AI)系统带来了前所未有的安全挑战
  • SQlite:列级,表级约束
  • Rust性能优化:内存对齐与缓存友好实战
  • 现在做网站用什么工具seo推广优化方案
  • “我的电脑”图标没了怎么办 4种方法找回
  • 【架构】-- OpenFeign:声明式 HTTP 客户端框架深度解析
  • 召开网站建设培训会seo推广排名平台有哪些
  • 个人可以做公益网站吗百度会员
  • 基于STM32F4系列MCU和CS5530 24位SDADC的称重传感器系统实现
  • 一文深入学习Java动态代理-JDK动态代理和CGLIB
  • 嵌入式开发学习日志42——stm32之SPI工作方式