当前位置: 首页 > news >正文

阅读论文笔记《Efficient Estimation of Word Representations in Vector Space》

这篇文章写于2013年,对理解 word2vec 的发展历程挺有帮助。

本文仅适用于 Word2Vect 的复盘

引言

这篇论文致力于探索从海量数据中学习高质量单词向量的技术。当时已发现词向量能保留语义特征,例如 “国王 - 男人 + 女人≈女王”。论文打算借助该特性,提出新的词向量表示方法,进一步提高词向量质量,并探究训练时间、准确性与向量维度、数据量之间的关联。

此前,已有不少利用神经网络语言模型 NNLM 生成词向量的研究,其中部分研究发现,简单模型展现出了学习词向量的能力。本文从中获得启发,决定探索简单神经网络结构,期望在降低计算复杂度的同时,高效地从大规模数据中学习高质量词向量。

模型架构

首先将模型的计算复杂度定义为需要训练的参数的数量。

有两个目的:1、最大化准确度;2、最小化计算复杂度

论文基于前馈神经网络语言模型(NNLM)进行了改善。
NNLM 包含输入层、映射层、隐藏层和输出层,每轮训练的计算复杂度为:
在这里插入图片描述
这里主要是 H × V H\times V H×V 这一项占主导,也就是 V V V 这个值。论文使用了已有方法分层 softmax 对这部分进行了优化。这样一来,变成了 N × D × H N\times D\times H N×D×H 进行主导,为了优化这部分,论文去掉了隐藏层,这样模型的复杂度就很大程度上取决于softmax归一化的效率了。

作为 NNLM 的改进,RNNLM 考虑了可变上下文长度,利用 RNN 来处理。RNNLM 由输入层、隐藏层和输出层这三层构成,相应每次训练的计算复杂度为:
在这里插入图片描述
其中词向量的维度与隐藏层维度相同。 H × V H\times V H×V 仍然可以使用分层 softmax 来优化。这样一来,复杂度的优化集中于 H × H H\times H H×H

在本论文中,采用了并行训练的方法,使用多个部署了模型副本的 GPU 同时训练。论文使用小批量异步梯度下降方法,即将训练数据划分为多个 batch 部署到不同的 GPU 上,这些 GPU 异步地各自进行训练。另外,论文使用了名为 Adagrad 的自适应学习率过程。

新的对数线性模型

从前面对 NNLM 和 RNNLM 的介绍中,我们看到计算复杂度主要来自非线性隐藏层。为此论文考虑探索更简单的架构(想去掉隐藏层),尽管这样的结果不如神经网络模型那样精确,但对于大规模训练数据来说可能更加有效。

论文提出了 CBOW 和 Skip-gram 这两个简单的架构。

连续词袋模型(CBOW)

在这里插入图片描述
CBOW 的计算复杂度为:
在这里插入图片描述

连续跳元模型(Skip-gram)

在这里插入图片描述
Skip-gram 的计算复杂度:
在这里插入图片描述

相关文章:

  • YOLOV8的学习记录(二) yolo8的几个内置模型简介
  • RabbitMQ介绍以及基本使用
  • 小米平板怎么和电脑共享屏幕
  • c++--静态联编--动态联编
  • 动态库与静态库:深入解析与应用
  • CAS单点登录(第7版)12.密码管理
  • CANopen 基础
  • 13 责任链(Chain of Responsibility)模式
  • 数据结构与算法-哈希表
  • resultMap 标签
  • 变相提高大模型上下文长度-RAG文档压缩-2.带早停机制的map-refine
  • pgsql用户和权限管理
  • 安卓基础(持续更新的笔记)
  • Kotlin Lambda
  • 2025年,如何选择IT监控平台
  • CEF132 编译指南 Linux 篇 - CEF 编译实战:构建 CEF(六)
  • 【Redis】下载安装Redis和Redis图形化界面工具教程(2024最新版本,史上最详细)
  • 石子合并
  • windows编译使用gtest
  • SpringBoot3 快速启动框架
  • 盐城经济技术开发区党工委书记王旭东接受纪律审查和监察调查
  • 辽宁援疆前指总指挥王敬华已任新疆塔城地委副书记
  • 上市公司重大资产重组新规九要点:引入私募“反向挂钩”,压缩审核流程
  • 2000多年前的“新衣”长这样!马王堆文物研究新成果上新
  • 联合国报告:全球经济前景恶化,面临高度不确定性
  • 青海省交通运输厅副厅长田明有接受审查调查