当前位置: 首页 > wzjs >正文

手机网站图片做多大搜索引擎广告收费方式

手机网站图片做多大,搜索引擎广告收费方式,用html5做的简单的网站,邯郸市城乡建设管理局网站一、Transformer 中的词嵌入是什么? 1. 定义与作用 • 词嵌入(Word Embedding):将离散的词语映射为低维连续向量,捕捉语义和语法信息。 • 在 Transformer 中的位置: • 输入层:每个词通过嵌入…

一、Transformer 中的词嵌入是什么?

1. 定义与作用

词嵌入(Word Embedding):将离散的词语映射为低维连续向量,捕捉语义和语法信息。
在 Transformer 中的位置
• 输入层:每个词通过嵌入层转换为向量(如 embedding_dim=512)。
• 输出层:解码器输出的向量通过反向嵌入映射回词表概率(如 logits = decoder_output * embedding_matrix^T)。

2. 与 Word2Vec 的对比
特性Word2VecTransformer 中的词嵌入
上下文相关性静态(每个词仅一个向量)动态(同一词在不同上下文中向量不同)
训练方式独立预训练(无监督)端到端学习(通常结合预训练任务)
多义词处理无法区分多义词基于上下文动态调整(如 BERT)
位置信息通过位置编码(Positional Encoding)
参数规模较小(仅词表大小 × 嵌入维度)较大(嵌入层是模型的一部分)

二、Transformer 词嵌入的核心革新

1. 上下文相关(Contextualized Embeddings)

问题:Word2Vec 的静态词向量无法处理一词多义(例如“bank”在“river bank”和“bank account”中的不同含义)。
解决方案:Transformer 通过自注意力机制动态调整词向量:
• 输入序列中的每个词向量在编码过程中与其他词交互,生成上下文相关的表示。
示例:在句子 Apple launched a new phone 中,“Apple”的向量会包含“phone”的语义;而在 Apple pie is delicious 中,“Apple”的向量会包含“pie”的语义。

2. 位置编码(Positional Encoding)

问题:Transformer 抛弃了 RNN 的时序结构,需显式注入位置信息。
实现方式
绝对位置编码:通过正弦函数或可学习向量编码词的位置(原始论文方法):
P E ( p o s , 2 i ) = sin ⁡ ( p o s / 1000 0 2 i / d model ) PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{\text{model}}}) PE(pos,2i)=sin(pos/100002i/dmodel) P E ( p o s , 2 i + 1 ) = cos ⁡ ( p o s 1000 0 2 i / d model ) PE_{(pos, 2i+1)} = \cos(pos10000^{2i/d_{\text{model}}}) PE(pos,2i+1)=cos(pos100002i/dmodel)
相对位置编码:某些变体(如 Transformer-XL)编码词之间的相对距离。

3. 预训练任务驱动

预训练任务:Transformer 的词嵌入通常通过大规模预训练任务学习:
BERT:掩码语言模型(Masked Language Model, MLM) + 下一句预测(Next Sentence Prediction, NSP)。
GPT:自回归语言模型(预测下一个词)。
优势
• 词嵌入不仅包含通用语义,还编码了任务相关的知识(如句间关系、长程依赖)。


三、Transformer 词嵌入的技术细节

1. 嵌入层的数学表示

• 给定词表大小为 V V V,嵌入维度为 d d d,嵌入层是一个 V × d V \times d V×d的矩阵。
• 输入序列 [ w 1 , w 2 , . . . , w n ] [w_1, w_2, ..., w_n] [w1,w2,...,wn] 经过嵌入层后得到矩阵 X ∈ R n × d X \in \mathbb{R}^{n \times d} XRn×d,再与位置编码 P P P 相加:
X final = X + P X_{\text{final}} = X + P Xfinal=X+P

2. 与自注意力的交互

• 自注意力机制通过查询(Query)、键(Key)、值(Value)矩阵对词向量进行交互:
Attention ( Q , K , V ) = softmax ( Q K ⊤ d k ) V \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V Attention(Q,K,V)=softmax(dk QK)V
结果:每个词的输出向量是所有词向量的加权和,权重由语义相关性决定。

3. 跨层信息传递

• Transformer 的每一层(Layer)都会更新词向量:
• 底层编码局部语法(如词性)。
• 高层编码全局语义(如指代消解、情感倾向)。


四、实例分析:BERT 的嵌入层

1. 输入表示

BERT 的输入嵌入由三部分组成:

  1. 词嵌入(Token Embeddings):将词语映射为向量。
  2. 位置嵌入(Position Embeddings):可学习的位置编码。
  3. 段嵌入(Segment Embeddings):区分句子对(如问答任务中的问题和答案)。
2. 掩码语言模型(MLM)

训练任务:随机遮盖输入中的某些词(如替换为 [MASK]),让模型预测被遮盖的词。
对词嵌入的影响
• 迫使模型通过上下文推断被遮盖词,增强嵌入的上下文敏感性。
• 示例:在句子 The [MASK] sat on the mat 中,模型需根据 satmat 推断 [MASK] 可能是 cat

3. 输出示例

• 输入词 bank 在不同上下文中的 BERT 嵌入向量:
• 上下文 1:river bank → 向量靠近 shore, water
• 上下文 2:bank account → 向量靠近 money, finance


五、代码示例:Transformer 嵌入层的实现(PyTorch)

import torch
import torch.nn as nnclass TransformerEmbedding(nn.Module):def __init__(self, vocab_size, embed_dim, max_seq_len, dropout=0.1):super().__init__()self.token_embed = nn.Embedding(vocab_size, embed_dim)self.pos_embed = nn.Embedding(max_seq_len, embed_dim)  # 可学习的位置编码self.dropout = nn.Dropout(dropout)def forward(self, x):# x: [batch_size, seq_len]positions = torch.arange(x.size(1), device=x.device).unsqueeze(0)token_emb = self.token_embed(x)        # [batch_size, seq_len, embed_dim]pos_emb = self.pos_embed(positions)    # [1, seq_len, embed_dim]return self.dropout(token_emb + pos_emb)# 使用示例
vocab_size = 10000
embed_dim = 512
max_seq_len = 128
model = TransformerEmbedding(vocab_size, embed_dim, max_seq_len)input_ids = torch.randint(0, vocab_size, (32, max_seq_len))  # 模拟输入(batch_size=32)
output_emb = model(input_ids)  # [32, 128, 512]

六、总结:Transformer 的词嵌入

  1. 上下文动态调整:通过自注意力机制捕捉长距离依赖,解决一词多义。
  2. 预训练赋能:在大规模语料上预训练,使词嵌入包含丰富的世界知识。
  3. 位置感知:显式编码位置信息,弥补无时序结构的缺陷。
  4. 端到端学习:嵌入层与模型其他部分联合优化,适应具体任务需求。
http://www.dtcms.com/wzjs/782069.html

相关文章:

  • 网站建设工作总结电子商务网站建设方案设计报告
  • 公司网站开发多少钱优钙网logo设计
  • 长沙做网站企业wordpress右侧
  • 做纺织的用什么网站杭州百度做网站多少钱
  • 招标网站建设申请报告微信公众营销平台开发
  • 有链接的网站网站建设网络公司整站源码
  • 国外网站怎么做引流wordpress 修改文章作者
  • 2015手机版网站制作怎样去掉底部的wordpress
  • pathon做网站做智能网站平台
  • 网站模板演示福州鼓楼区网站建设
  • 百度推广手机网站网站方案讲解技巧
  • 深圳外贸建站网络推广价格旺道seo优化软件
  • 定制型营销网站建设qq钓鱼网站在线生成器
  • 东莞哪家公司做网站比较好协会网站建设计划
  • 做一年的网站能赚多少钱学校网站建设先进个人荣誉
  • 免费做电子邀请涵的网站电子商务网站建设维护有没有欺骗
  • 做网站用php还是nodees网站建设
  • 做淘宝网站买个模版可以吗晋江网站建设费用
  • 商城网站建设公司招聘全国建筑四库一平台查询个人信息
  • 网站建设方案策划书ppt最好的餐饮设计网站建设
  • 网站制作网站开发免费制作图片
  • 上饶做网站建设成都网站改版优化
  • jsp简述网站开发流程图门户网站有哪些局限性
  • 电影下载网站如何做wordpress主题模版
  • 网站开发的实践报告旅游网站开发项目策划书
  • 购物网站html网站服务器 虚拟主机
  • 我的网站刚换了一个模板收录很多就是没排名自适应网站有哪些
  • 大连网络建站模板免费收录网提交
  • 上海做公司网站多少钱哪里做企业网站
  • 做期货网站违法的吗成都市住房和建设局官网