当前位置: 首页 > wzjs >正文

网站的在线支付怎么做泸州城建设档案管网站

网站的在线支付怎么做,泸州城建设档案管网站,提供常州网站建设,在越南做一个网站怎么做概述 Transformer整体的结构非常清晰,就是把输入通过一堆 Encoder 和 Decoder 层“加工”一下,最后得到输出。具体来说: Encoder: 负责“理解”输入。 它接收原始输入(比如一句中文),通过多层的…

概述

Transformer整体的结构非常清晰,就是把输入通过一堆 Encoder 和 Decoder 层“加工”一下,最后得到输出。具体来说:

  • Encoder: 负责“理解”输入。
    它接收原始输入(比如一句中文),通过多层的注意力机制和前馈网络,逐层提取出更深层次的语义信息。

  • Decoder: 负责“生成”输出。
    它一边看 Encoder 提取的信息,一边根据当前已生成的内容,逐步生成最终输出(比如一句英文)。

详细来说就是下面的架构图,红色框是Encoder的架构,蓝色框是Decoder的架构:

Encoder

Encoder主要包含三个方面:Input、Multi-Head Attention、Feed Forward(FFN)。不过大多数时候FFN就是两个两个线性层中间加上激活函数:FFN(x) = Linear(ReLU(Linear(x))),就不多说了。

Input Processing

这一部分解决的问题是怎么把输入喂给Transformer——BPE+Positional Encoding,也就是两步走:① 把文字变成“词向量”(BPE);② 告诉模型每个词在句子中的“位置”(PE),最后输入阶段得到的喂给模型的表示为:BPE+PE

BPE:解决“词太多”和“没见过”的问题

自然语言中存在两大难题:

  • 太多词:词表太大,难以训练;

  • 生僻词:没见过的词,模型处理不了。

为了解决这个问题,Transformer 使用了一种叫 Byte Pair Encoding(BPE) 的技术。本质是:

将词拆成更小的“子词”单位,然后学习最常见的组合。

比如:

  • lower, lowest 拆成:low + er, low + est

  • 即使遇到从没见过的词 lowers,也能拆成 low + ers,照样处理!

可以把它理解成一种频繁项合并算法,越常出现的组合,越容易被合成一个整体。

Positional Encoding:告诉模型“词在第几位”

Transformer 是并行的,没有像 RNN 那样天然知道“顺序”,所以我们得手动告诉它每个词的位置。这就是 位置编码(Positional Encoding) 的作用,核心思想:

给每个词的向量加上一段“位置向量”,让模型知道它在句子中的位置。

这个位置向量是通过一套公式计算出来的:

假设我们设定:

  • embedding 维度 d = 4

  • 我们看两个位置:pos = 0(第一个词)和 pos = 1(第二个词)

对应的PE公式为:

所以不同的位置 pos得到的向量值是完全不同的;而不同维度 i 的值是由不同频率的 sin/cos 控制的。

POSPE(POS)
0[sin(0), cos(0), sin(0/100), cos(0/100)] = [0, 1, 0, 1]
1[sin(1), cos(1), sin(0.01), cos(0.01)] ≈ [0.841, 0.540, 0.01, 0.9999]

这样做的好处:

  • 每个位置都有一个唯一的编码向量
  • 如果你算 PE(1) - PE(0),这个差值向量是有规律的,模型可以利用这种规律去理解词之间的相对距离

Multi-Head Self Attention

输入嵌入处理好之后,Transformer 的核心模块就要开始工作了,要理解“Multi-Head Self Attention”首先从Self Attention开始。

Self-Attention:自己关注自己,理解上下文

Self-Attention 的本质是:

让一个词,去关注同一句子中其他所有词,计算它们对自己的“重要性”。

我们从输入向量(比如每个词的 embedding)中,经过三个线性变换(也就是通过三个线性层),得到:

  • Q(Query):我要去关注别人

  • K(Key):我是被关注的

  • V(Value):我携带的信息内容

然后计算 Q 和 K 的相似度,得到每个词对其它词的注意力权重(用 Softmax 归一化),最后用这个权重去加权 V,也就是“从别人那学点有用的东西回来”:

Multi-Head Attention:从多个角度“看世界”

为什么需要多头?

因为一句话中,不同词之间可能存在多种关系,一个注意力头可能只关注其中一个角度。

比如,“The animal didn’t cross the street because it was too tired.”,模型要判断 "it" 指的是 "animal" 还是 "street",这就需要捕捉不同词之间的语义联系。实现多头也很简单,使用不同的线形层生成多组QKV就好了,每组QKV独立做Self-Attention,最后把所有头的输出concat起来,再过一个线形层整合信息。

Decoder

Decoder 的任务是根据 Encoder 编码过的信息,一步步“翻译”出目标序列(比如生成一句英文句子)。每个 Decoder Layer 主要由两个注意力模块:

  1. Masked Multi-Head Self-Attention(掩码自注意力)

  2. Multi-Head Attention(对 Encoder 输出的注意力)

Masked Multi-Head Self-Attention:防止“偷看未来”

在生成句子的过程中,比如我们要生成一句话“I am happy today”,当 Decoder 已经输出了 “I” 和 “am”,此时模型去预测下一个词("happy")时,不应该看到后面还没生成的词(比如 “today”)。所以这一块的重点是:

要保证模型只能基于“已经生成的词”做预测,不能“未卜先知”。

要实现“防偷看”就用到了课程里面提到的“下三角的掩码矩阵”,举个例子:

位置:   0  1  2  3
Mask矩阵:[[1, 0, 0, 0],[1, 1, 0, 0],[1, 1, 1, 0],[1, 1, 1, 1]]

每一行表示第几个词,这个mask矩阵就表示第 t 个位置的词,只能看到 0~t 的内容,不能看未来的位置。

技术上是:对 QK 相乘后的矩阵,给“未来位置”加一个很大的负数(比如 -1e9),经过 softmax 后这些位置权重就接近于 0 了。

Multi-Head Attention:从 Encoder 获取输入信息

其实到这里就已经能实现生成文字了,为什么还需要一个注意力模块呢?因为Masked Self-Attention 只处理“自己已经生成的部分”,但生成新词还需要结合源句子的意思(Encoder 输出)。比如:输入是中文“我很高兴”,Decoder 已经生成了“I am”,那要生成 “happy” 时,必须参考“高兴”这个词对应的 Encoder 信息。

  • Decoder 的当前输出作为 Query (Q)

  • Encoder 的输出作为 Key (K)Value (V)

  • 做一次标准的 Attention,计算 Decoder 生成词与 Encoder 中所有位置的相关性,然后加权获得信息。

拓展:Vision Transformer

视觉领域的Transformer框架和大语言模型基本相同,变化最大的地方就是Input Processing部分,是由计算机视觉领域针对图片的两个操作:Patch embed 和 Positional Encoding(不变),也就一个是将文本转化成embedding,一个是将图片转化为embedding。


文章转载自:

http://YMmJWHUQ.hqhLx.cn
http://hrd2lfPP.hqhLx.cn
http://y62jAJdd.hqhLx.cn
http://H5oyhi02.hqhLx.cn
http://i7YMmnSX.hqhLx.cn
http://3njaZsEP.hqhLx.cn
http://mDYPZrje.hqhLx.cn
http://UwooDdAz.hqhLx.cn
http://zVc74wWL.hqhLx.cn
http://I8TxRfXI.hqhLx.cn
http://eTqZS3ui.hqhLx.cn
http://nvdCV8AU.hqhLx.cn
http://kzox1FBO.hqhLx.cn
http://0Cnzecmg.hqhLx.cn
http://1eY0N4dh.hqhLx.cn
http://2sfXbulI.hqhLx.cn
http://lB7ZAl75.hqhLx.cn
http://61FR3w3H.hqhLx.cn
http://9A9jN9iQ.hqhLx.cn
http://NViy875y.hqhLx.cn
http://NaPnBV46.hqhLx.cn
http://vb2EZErC.hqhLx.cn
http://FNIOG0J1.hqhLx.cn
http://XA8g9aLI.hqhLx.cn
http://gnNuYOa5.hqhLx.cn
http://U0Aczv3o.hqhLx.cn
http://HAnxYGLI.hqhLx.cn
http://mGgDfBpu.hqhLx.cn
http://Dsph4xDN.hqhLx.cn
http://ZUPLw4YG.hqhLx.cn
http://www.dtcms.com/wzjs/697340.html

相关文章:

  • 网站建设与百度推广别墅庭院园林景观设计公司
  • 网站外包制作网站链接推广怎么赚钱
  • 龙文区城乡建设局网站呼和浩特城乡建设网站
  • 网站备案幕布照如何做seo外贸推广
  • 做图表好用网站或软件四川省住房和城乡建设厅网站域名
  • 分析公司网站的开发策略wordpress搬家后页面空白
  • 国外网站搭建平安区wap网站建设公司
  • 服装网站建设的技术可行性汕头老城区图片
  • 教育网站都有哪些网站怎么优化关键词排名
  • 高校保卫处网站建设工作佛山外贸网站建设价位
  • 高端网站搭建公司域名问题网站不更新
  • 佛山营销型网站设计京东短链接生成器
  • 做网站销售好吗wordpress搬家 打开404
  • 福建省建设资格注册管理中心网站做房产网站用什么软件
  • 装饰公司网站模版怎样维护网站
  • 学做网站论坛会员账户免费加速器
  • 一个网站是如何知道是谁来访问上海h5网站建设
  • 开家网站建设培训学校小程序开发平台哪个产品好
  • 行业门户网站建设费用宝安网站制作
  • 简单的cms建站系统python培训班
  • 建设 网站工作汇报做网站的一般多钱
  • 管理网站制作wordpress国内主题排行
  • 网站建设一般多少钱新闻网站建设预付款
  • 电商网站建设培训学校小说网站排名
  • 网站建设费一般多少钱给我免费播放电影
  • 什么做网站赚钱搜索引擎营销就是seo
  • 怎么看网站做的外链php微信公众号开发教程
  • wordpress做分类网站建设局和住建局的区别
  • 网站建设主要推广方式张家港早晨网站制作
  • 图书馆第一代网站建设专业网站托管的公司