当前位置: 首页 > news >正文

CS224N-Lecture01-Word Vectors

WordNet

image.png

对比项普通字典WordNet
建立方式人类写作者为读者编写语言学家为计算机编写
内容结构每个词独立定义、例句每个词义(Synset)之间有网络关系
主要用途查含义、拼写计算机进行语义推理、相似度计算
数据形式文本图结构(词义节点 + 语义边)

Problems with WordNet

image.png

One-hot

image.png

Problem of similarity

image.png

WordNet 方式失败,因此要“学习向量”而非人工列举。

Distributional semantics:

image.png

word vector

image.png

word vector=word embedding =word representation

“分布式”意思是——词义被分布在多个维度上,不是集中在某一个维度。

  • 每一维都反映一部分语义(可能与语法、语境、主题有关)。

  • 例如,“banking”的第 7 维可能反映“金融性”,第 19 维可能反映“机构性”,等等。
    因此,语义信息是**分布式编码(distributed encoding)**的。

Word2vec

image.png

核心概念

Word2Vec 是 Mikolov 等人在 2013 年提出的一个框架,用来从大量文本中学习词向量(word vectors)
它的目标是:

让语义相似的单词拥有相似的向量表示。

主要思想(Idea)

  1. We have a large corpus of text
    → 我们有一个巨大的文本语料库(corpus),比如所有维基百科文章。
    这就是模型的训练数据。

  2. Every word is represented by a vector
    → 语料库中每个词都有一个可学习的向量(embedding)。
    这些向量最开始是随机的,模型训练后会逐渐学到语义信息。

  3. Go through each position t in the text
    → 在语料的每个位置 t,取出当前的中心词(center word)记为 c = w(t),
    并找出它前后一定范围内的上下文词(context words) o = w(t±1), w(t±2)…。
    这称为滑动窗口(context window)

  1. Use similarity to calculate probability
    → 模型计算“在给定中心词 c 的情况下,上下文词 o 出现的概率”,
    用到的就是它们的词向量相似度(通常用点积)。
    数学上写成: P(o∣c)=euoTvc∑w∈VeuwTvcP(o|c) = \frac{e^{u_o^T v_c}}{\sum_{w \in V} e^{u_w^T v_c}} P(oc)=wVeuwTvceuoTvc
    (softmax 形式)

  2. Keep adjusting word vectors to maximize this probability
    → 不断调整这些词向量,使得真实上下文词出现的概率最大。
    换句话说,模型学习到:

    • “banking” 的上下文常出现 “finance, loan, money”;

    • “apple” 的上下文常出现 “fruit, tree, eat”;
      因此它们的向量就会靠近这些语义邻居。

右侧图解释

右边的图展示的是 Skip-gram 模型结构(Word2Vec 的两种形式之一):

  • 输入层:当前中心词 w(t)(例如 “banking”)。

  • 投影层(projection):把输入词映射成向量表示(embedding)。

  • 输出层:预测它周围的上下文词 w(t−2)、w(t−1)、w(t+1)、w(t+2)。

也就是说,Skip-gram 的任务是:

给定中心词 → 预测上下文。

另一种相反的模型叫 CBOW(Continuous Bag of Words),是:

给定上下文 → 预测中心词。

Word2vec:objective function

image.png

下标

在 Word2Vec 中:

  • 下标在 v 上的词是中心词;

  • 下标在 u 上的词是上下文词。

换句话说:

vcv_cvc→ “谁在预测别人”,
uou_ouo​ → “谁被预测出来”。

预测函数

image.png

在 Word2Vec 的上下文里,这个 xi​x_i​xi 其实具体对应的是每个词的相似度分数(score)

max” 表示会放大最大值的影响;

“soft” 表示仍然给较小的值留一点概率

Optimize value of parameters to minimize loss

image.png

在 Word2Vec 里,参数 θ 就是所有词的中心向量和上下文向量的集合

Gradient descent

image.png
image.png

Stochastic Gradient Descent

image.png

  • 在 Batch GD 中,偏导数是全体样本平均梯度

  • 在 SGD 中,偏导数是单一样本的梯度,因此每次都能更新参数

http://www.dtcms.com/a/520574.html

相关文章:

  • vscode 配置ROS项目 导入库来源
  • 探寻架构师职责(一)----建新系统
  • 广州seo效果下载班级优化大师app
  • 兴城做网站推广的做网商必备网站
  • Windows系统php8.2.9 安装imagick扩展
  • 如何用router-view实现嵌套路由,完整使用示例
  • 深度学习 GPU 两种使用方法
  • 基于机器学习的基金股票预测:从数据到决策
  • 聊城网站制作需要多少钱企业网站的建设水平直接关系到网络营销的效果
  • 北京冬奥会网站制作素材做公司网站需要学哪些
  • 网站域名后缀意义设计好的建设网站
  • 如何刷网站访问量wordpress倒序阅读
  • 秦皇岛公司做网站服装设计公司有哪些
  • AAA的配置
  • 如何做论坛网站 知乎网站服务器安全配置
  • 邯郸整站优化项目设计方案模板
  • Spring Boot Bean 加载机制完全解析:从基础到高级实践
  • Spring Boot快速集成MiniMax、CosyVoice实现文本转语音
  • 力扣101.对称二叉树(java)
  • Spring Boot构建RESTful服务与Actuator监控
  • 【Spring Boot】深入浅出Spring Boot中的控制反转与依赖注入
  • 去年做那个网站致富商业网站在规划与设计时应着重考虑哪些因素
  • 苏州网站建设 凡仕臣网络台州自助建站公司
  • vscode json
  • 奥威BI:AI数据分析重塑客户体验的实战指南
  • 公司网站开发费摊销大连建设安全网站
  • 东莞教育网站建设浙江建设厅网站查询
  • 深圳公司网站设计企业虹口建设机械网站
  • Rust 所有权与借用机制深度剖析:原理、常见陷阱与实战优化
  • golang学习笔记:标准库encoding