当前位置: 首页 > news >正文

单页面网站设计网站欣赏软文是什么

单页面网站设计网站欣赏,软文是什么,wordpress说说分类,个人网上注册公司入口文章目录 前言负采样 (Negative Sampling)层序Softmax (Hierarchical Softmax)代码示例总结前言 在自然语言处理(NLP)领域,词嵌入(Word Embeddings)技术如Word2Vec(包括Skip-gram和CBOW模型)已经成为一项基础且强大的工具。它们能够将词语映射到低维稠密向量空间,使得…

文章目录

  • 前言
  • 负采样 (Negative Sampling)
  • 层序Softmax (Hierarchical Softmax)
    • 代码示例
  • 总结


前言

在自然语言处理(NLP)领域,词嵌入(Word Embeddings)技术如Word2Vec(包括Skip-gram和CBOW模型)已经成为一项基础且强大的工具。它们能够将词语映射到低维稠密向量空间,使得语义相近的词在向量空间中的距离也相近。然而,这些模型在训练过程中,尤其是在计算输出层softmax时,会面临一个巨大的挑战:词汇表通常非常庞大(几十万甚至数百万个词)。对整个词典进行求和并计算梯度,其计算成本是巨大的。

为了解决这个问题,研究者们提出了多种近似训练方法,旨在降低计算复杂度,同时保持模型性能。本篇将重点介绍两种在Word2Vec中广泛应用的近似训练方法:负采样(Negative Sampling)分层Softmax(Hierarchical Softmax)。我们将以跳元模型(Skip-gram)为例来阐述这两种方法的核心思想。

虽然本文标题带有"PyTorch版",但所提供的笔记主要集中在理论层面。在实际的PyTorch应用中,这些近似训练方法通常会通过专门的损失函数或者自定义神经网络层来实现。

完整代码:下载链接

负采样 (Negative Sampling)

负采样通过修改原始目标函数来降低计算复杂度。其核心思想是,对于每个训练样本(中心词和其上下文中的一个真实目标词),我们不再尝试预测整个词汇表中哪个词是正确的上下文词,而是将其转化为一个二分类问题:区分真实的目标词和一些随机采样的“噪声”词(负样本)。

给定中心词 w c w_c wc 的上下文窗口,任意上下文词 w o w_o wo 来自该上下文窗口的事件被认为是由下式建模概率的事件:

P ( D = 1 ∣ w c , w o ) = σ ( u o ⊤ v c ) P(D=1 \mid w_c, w_o) = \sigma(\mathbf{u}_o^\top \mathbf{v}_c) P(D=1wc,wo)=σ(uovc)

其中 σ \sigma σ 使用了sigmoid激活函数的定义:

σ ( x ) = 1 1 + exp ⁡ ( − x ) \sigma(x) = \frac{1}{1 + \exp(-x)} σ(x)=1+exp(x)1

u o \mathbf{u}_o uo 是上下文词 w o w_o wo 的输出向量(或称为上下文向量), v c \mathbf{v}_c vc 是中心词 w c w_c wc 的输入向量(或称为词向量)。

原始的Word2Vec模型旨在最大化文本序列中所有这些正样本事件的联合概率。具体而言,给定长度为 T T T 的文本序列,以 w ( t ) w^{(t)} w(t) 表示时间步 t t t 的词,并使上下文窗口为 m m m,考虑最大化联合概率:

∏ t = 1 T ∏ − m ≤ j ≤ m , j ≠ 0 P ( D = 1 ∣ w ( t ) , w ( t + j ) ) \prod_{t=1}^T \prod_{-m \leq j \leq m, j \neq 0} P(D=1 \mid w^{(t)}, w^{(t+j)}) t=1Tmjm,j=0P(D=1w(t),w(t+j))

然而,这个目标函数只考虑了正样本。如果仅最大化这个概率,模型可能会学到将所有词向量都变得非常大,导致 σ ( u o ⊤ v c ) \sigma(\mathbf{u}_o^\top \mathbf{v}_c) σ(uovc) 接近1,但这并没有实际意义。

为了使目标函数更有意义,负采样引入了负样本。

S S S 表示上下文词 w o w_o wo 来自中心词 w c w_c wc 的上下文窗口的事件。对于这个涉及 w o w_o wo 的事件,我们从一个预定义的分布 P ( w ) P(w) P(w)(通常是词频的3/4次方)中采样 K K K 个不是来自这个上下文窗口的“噪声词”(负样本)。用 N k N_k Nk 表示噪声词 w k ( k = 1 , … , K ) w_k (k=1, \ldots, K) wk(k=1,,K) 不是来自 w c w_c wc 的上下文窗口的事件(即它们是负样本, D = 0 D=0 D=0)。

假设正例和负例 S , N 1 , … , N K S, N_1, \ldots, N_K S,N1,,NK 的这些事件是相互独立的。负采样将上述联合概率(仅涉及正例)修改为,对于每个中心词-上下文词对 ( w ( t ) , w ( t + j ) ) (w^{(t)}, w^{(t+j)}) (w(t),w(t+j)),最大化以下概率࿱

http://www.dtcms.com/a/414455.html

相关文章:

  • Nginx 如何启用 HSTS 以加强网络安全 ?
  • qBittorrent下载和安装教程(附下载链接)
  • 网站建设公司的销售好做吗产品宣传推广方式有哪些
  • Whispers from the Star:Anuttacon推出的以AI智能体语音交互为核心的太空生存游戏
  • 语音识别:PyAudio、SoundDevice、Vosk、openai-whisper、Argos-Translate、FunASR(Python)
  • OpsManage项目RDS存储容量获取机制深度验证报告
  • dedecms网站栏目管理第三方做的网站不给源代码
  • 抄袭网站怎么办做淘客网站需要多大的空间
  • 设计模式-常见设计原则篇
  • 双网卡服务器校园网访问故障排查与解决​
  • 工信部备案网站南昌网站建设制作公司
  • 长度最小的子数组_优选算法(C++)滑动窗口
  • LeetCode:74.数组中的第K个最大元素
  • 学习游戏制作记录(boss的制作)
  • 快速排序(含hoare版本、挖坑版本和前后指针版本)
  • LeetCode:77.买卖股票的最佳时机
  • Apache Airflow:让复杂工作流自动化变得简单优雅
  • 精读《C++20设计模式》——创造型设计模式:原型模式
  • IDEA配置Maven教程
  • OpenLayers地图交互 -- 章节十五:鼠标滚轮缩放交互详解
  • [Python编程] Python3 错误与异常
  • 动态代理 java原生 vs Cglib
  • MQTT协议基础知识速成(智能家居项目)
  • 北京网站建设认知网络推广公司服务内容
  • 爬虫疑难问题解决方案整理
  • 如何制作PDF文件目录?
  • 左右翻网站模版网页美工设计教程
  • 牛客小白月赛121
  • 深入理解目标文件:从ELF格式到链接核心
  • Java系列知识之 ~ Spring 与 Spring Boot 常用注解对比说明