当前位置: 首页 > news >正文

【Word2Vec】Skip-gram 的直观理解(深入浅出)

01 什么是skip-gram

一句话来说就是,给定中心词,然后预测其周围的词:

在这里插入图片描述

02 模型结构

在这里插入图片描述

  1. 对于skip-gram来说,输入是一个[1 x V]维的ont-hot向量,其中V为词表大小,值为1的那一项就表示我们的中心词
  2. 经过一个[V x N]的矩阵得到一个[1 x N]的向量,这个向量就是我们需要的词的embedding表示
  3. 然后[1 x N]的向量经过一个[N x V]的矩阵得到一个[1 x V]的向量,这个向量的值就是中心词与词表中其他词的相似度,经过softmax就是中心词旁边周围词出现的概率
  4. 优化目标:经过训练[V x N][N x V]这两个矩阵,使得最后目标词与周围词的出现概率最大,而与除了周围词以外的词概率最小(负采样,这里不详细展开了)。

03 直观理解skip-gram流程

这里的每一步,对应了 02 模型结构 中的步骤。

这里我们举一个例子,一步步推导是怎么走的,这样更加直观:

以这句话为例:I love machine learning

我们随机初始化两个矩阵:

[V x N]的矩阵为:
[0.1, 0.2]
[0.3, -0.2]
[0.5, 0.4]
[-0.1, 0.3]

其中,V为4,表示词表中有4个单词,N为2表示我们想讲词向量映射为2(这个N是超参数,可以自己设定)。

注意这里为了文章简洁,使用两个相同矩阵,只是转置了一下,真实情况中一般是随机初始化的(大概率不同)。

1. 输入[1 x V]向量

假设我们的目标词是love,那么输入向量就是[0, 1, 0, 0]

2. 经过一个[V x N]的矩阵得到一个[1 x N]的向量

输入向量 x [V x N]的矩阵的直观理解就是:将词映射成embeding

以所举例子所示,向量 x 矩阵的结果就是:

I      -> [0.1, 0.2]
love   -> [0.3, -0.2]
machine-> [0.5, 0.4]
learning -> [-0.1, 0.3]

也就是将love从ont-hot向量映射为[0.3, -0.2]这个embedding。

3. [1 x N]的向量经过一个[N x V]的矩阵得到一个[1 x V]的向量

这个过程即做预测,skip-gram的预测过程就是找出跟中心词最相近的词,向量表示最简单就是看向量乘积,越高说明越相似。

比如,如果想知道love和I、machine之间的相似度:

在这里插入图片描述

4. 优化目标

使用交叉熵损失函数,目标是最小化目标词真实上下文词之间的预测误差(注意是真实上下文)。

对于该例子就是:

在这里插入图片描述

然后反向传播计算损失,不断优化两个矩阵,最后使得总损失最小,直观理解就是目标词与周围词的出现概率最大

  • 训练完成后的第一个矩阵的每一行,就对应着每个词的embedding表示;
  • 训练完成后,在做预测时:给定一个词,想知道他的上下文词是谁,就看3. 的结果[1 x V]的向量值最大的n个元素,就对应最可能的n个上下文词。

相关文章:

  • Redis 的几个热点知识
  • (十 一)趣学设计模式 之 组合模式!
  • 【Mac】git使用再学习
  • 基于SpringBoot的“母婴护理知识共享系统”的设计与实现(源码+数据库+文档+PPT)
  • LeetCode 124:二叉树中的最大路径和
  • Spring Boot 入门 与 无法解析符号 springframework 的解决
  • Three.js 快速入门教程【十一】天空盒的多种实现方式
  • C#学生管理系统 进阶(通过接口,继承接口的类,实现接口约束_对List中存储的数据进行排列)
  • 什么是requestIdleCallback?
  • Hue Docker镜像构建异常:gnutls_handshake() failed
  • 第15届 蓝桥杯 C++编程青少组中/高级选拔赛 202403 真题答案及解析
  • Win32 C++ 电源计划操作
  • 第三百七十二节 JavaFX教程 - JavaFX HTMLEditor
  • spring事件
  • 【推荐项目】023-游泳俱乐部管理系统
  • 优博讯,蓝禾,三七互娱,顺丰,oppo,游卡,汤臣倍健,康冠科技,作业帮,高途教育25届春招内推
  • 基于 Python 深度学习的电影评论情感分析可视化系统(2.0 全新升级)
  • 算法日常刷题笔记(3)
  • 【Java项目】基于SpringBoot的藏区特产销售平台
  • 目标检测算法——YOLOV11——算法详解
  • 雷军内部演讲回应质疑:在不服输、打不倒方面,没人比我们更有耐心
  • 中拉互联网发展与合作论坛在西安开幕
  • 新任美国驻华大使庞德伟抵京履职,外交部回应
  • 沙青青评《通勤梦魇》︱“人机组合”的通勤之路
  • 当代科技拟召开债券持有人会议 ,对“H20科技2”进行四展
  • 牛市早报|中美日内瓦经贸会谈联合声明公布