当前位置: 首页 > wzjs >正文

建设工程指数网站成华区统一建设办公室网站

建设工程指数网站,成华区统一建设办公室网站,wordpress创建数据库文件夹,建设部四库一平台查询网站第一章:人工智能之不同数据类型及其特点梳理 第二章:自然语言处理(NLP):文本向量化从文字到数字的原理 第三章:循环神经网络RNN:理解 RNN的工作机制与应用场景(附代码) 第四章:循环神经网络RNN、LSTM以及GR…

第一章:人工智能之不同数据类型及其特点梳理
第二章:自然语言处理(NLP):文本向量化从文字到数字的原理
第三章:循环神经网络RNN:理解 RNN的工作机制与应用场景(附代码)
第四章:循环神经网络RNN、LSTM以及GRU 对比(附代码)
第五章:理解Seq2Seq的工作机制与应用场景中英互译(附代码)
第六章:深度学习架构Seq2Seq-添加并理解注意力机制(一)
第七章:深度学习架构Seq2Seq-添加并理解注意力机制(二)
第八章:深度学习模型Transformer初步认识整体架构

一、Transformer 是什么?

Transformer 是 Google 在 2017 年提出的 基于自注意力机制(Self-Attention) 的深度学习模型,彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),成为自然语言处理(NLP)领域的革命性架构。其核心思想是通过 全局依赖建模并行计算 高效处理序列数据,广泛应用于机器翻译、文本生成、语音识别等任务。

典型应用

  • BERTGPT 等预训练模型均基于 Transformer。
  • ChatGPTDALL·E 等生成式 AI 的核心架构。

二、产生的背景

2.1. 传统模型的局限性

  • RNN(LSTM/GRU)
    • 序列依赖:必须逐时间步计算,无法并行训练。
    • 长距离依赖:梯度消失/爆炸问题严重,难以捕捉远距离词的关系。
  • CNN
    • 局部感受野:依赖卷积核大小,难以建模全局依赖。
    • 位置敏感性:需堆叠多层才能扩大感受野,效率低。

2.2. 注意力机制的启发

  • 2014 年,注意力机制首次在 Seq2Seq 模型中被提出,解决了编码器信息压缩的瓶颈。
  • 但基于 RNN 的注意力模型依然无法完全并行,且长序列处理能力有限。

2.3. 硬件算力提升

  • GPU/TPU 的普及使得大规模并行计算成为可能,推动了 Transformer 的可行性。

三、发展历史

时间里程碑
2017Transformer 诞生:论文《Attention Is All You Need》提出纯注意力架构。
2018BERT:基于 Transformer 的双向预训练模型,刷新多项 NLP 任务记录。
2018GPT:基于 Transformer 的单向生成式预训练模型,开启大模型时代。
2020Vision Transformer (ViT):将 Transformer 应用于计算机视觉领域。
2022ChatGPT:基于 Transformer 的对话模型,引发生成式 AI 的爆发。

四、Transformer 的优缺点

优点

特性说明
并行计算所有位置同时计算,训练速度远超 RNN/CNN。
长距离依赖建模自注意力直接捕捉任意位置的关系,避免梯度消失。
可扩展性通过堆叠多层和多头注意力,轻松扩展模型容量。
多模态支持统一处理文本、图像、语音等不同模态数据(如 ViT、Whisper)。

缺点

局限性说明
计算复杂度高自注意力复杂度为 O ( N 2 ) O(N^2) O(N2),长序列(如文档)计算成本剧增。
显存占用大存储注意力矩阵需大量显存,限制输入长度。
数据需求高依赖海量训练数据,小数据场景易过拟合。

五、Transformer 整体架构

Transformer 由 编码器(Encoder)解码器(Decoder) 堆叠组成,
在这里插入图片描述
而每一个编码器或者解码器内部,又由不同的组件构成。
在这里插入图片描述

编码器(Encoder)
在这里插入图片描述

  • 编码器(Encoder)包含 N 个相同层,每层由以下组件构成:
    1. 多头自注意力(Multi-Head Self-Attention)
    2. 前馈网络(Feed-Forward Network)
    3. 残差连接(Residual Connection)层归一化(LayerNorm)

解码器(Decoder)
在这里插入图片描述

  • 解码器(Decoder)包含 N 个相同层,每层在编码器基础上增加:
    1. 掩码多头自注意力(Masked Multi-Head Self-Attention)
    2. 编码器-解码器注意力(Encoder-Decoder Attention)

六、核心组件

6.1. 自注意力机制(Self-Attention)

目标:为序列中每个位置生成加权表示,反映全局依赖关系。
计算步骤

  1. 生成 Q、K、V 矩阵
    Q = X W Q , K = X W K , V = X W V Q = XW^Q, \quad K = XW^K, \quad V = XW^V Q=XWQ,K=XWK,V=XWV
  2. 计算注意力分数
    Attention ( Q , K , V ) = Softmax ( Q K ⊤ d k ) V \text{Attention}(Q, K, V) = \text{Softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V Attention(Q,K,V)=Softmax(dk QK)V
    • 缩放点积:除以 d k \sqrt{d_k} dk 防止梯度爆炸。
    • Softmax:归一化为概率分布。

6.2. 多头注意力(Multi-Head Attention)

  • 并行计算:将 Q、K、V 拆分为多个子空间(头),分别计算注意力后拼接:
    MultiHead ( Q , K , V ) = Concat ( head 1 , … , head h ) W O \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O MultiHead(Q,K,V)=Concat(head1,,headh)WO
    • 优势:捕捉不同子空间的语义特征(如语法、语义)。

6.3. 位置编码(Positional Encoding)

  • 目标:为输入序列注入位置信息(替代 RNN 的时序性)。
  • 公式(正弦/余弦函数):
    P E ( p o s , 2 i ) = sin ⁡ ( p o s 1000 0 2 i / d ) , P E ( p o s , 2 i + 1 ) = cos ⁡ ( p o s 1000 0 2 i / d ) PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{2i/d}}\right), \quad PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{2i/d}}\right) PE(pos,2i)=sin(100002i/dpos),PE(pos,2i+1)=cos(100002i/dpos)
  • 效果:使模型能区分不同位置的词(如“猫追狗” vs “狗追猫”)。

6.4. 前馈网络(Feed-Forward Network)

  • 结构:两层全连接层 + 激活函数(如 ReLU):
    FFN ( x ) = max ⁡ ( 0 , x W 1 + b 1 ) W 2 + b 2 \text{FFN}(x) = \max(0, xW_1 + b_1)W_2 + b_2 FFN(x)=max(0,xW1+b1)W2+b2
  • 作用:增强模型非线性表达能力。

6.5. 残差连接与层归一化

  • 残差连接:缓解梯度消失,公式为 x + Sublayer ( x ) x + \text{Sublayer}(x) x+Sublayer(x)
  • 层归一化:加速训练,稳定梯度。

6.6. 编码器-解码器注意力

  • 解码器在生成每个词时,通过 编码器-解码器注意力层 关注编码器的输出:
    • Q 来自解码器的上一状态。
    • K、V 来自编码器的输出。
  • 作用:动态对齐输入与输出序列(如机器翻译中的词对齐)。

七、总结

Transformer 通过 自注意力机制并行计算架构,解决了传统模型的序列处理瓶颈,成为 AI 领域的基石技术。尽管存在计算资源消耗大的问题,但其在长距离依赖建模、多模态支持等方面的优势,使其在 NLP、CV、语音等领域持续引领技术突破。

下一章详细介绍Transformer的几个核心组件,自注意力推导示例、什么是多头注意力、为什么要添加位置编码等


文章转载自:

http://OU4ScBla.cfrhc.cn
http://cSvVpGUa.cfrhc.cn
http://hr3CrgS5.cfrhc.cn
http://Vd1bSR7I.cfrhc.cn
http://pmTBmXL5.cfrhc.cn
http://baUTDX3P.cfrhc.cn
http://x4swynO7.cfrhc.cn
http://cn5TkTNS.cfrhc.cn
http://oicAMP6x.cfrhc.cn
http://h6ue92Vd.cfrhc.cn
http://JYyPPM2M.cfrhc.cn
http://lOTZNRDw.cfrhc.cn
http://wr8hmNwU.cfrhc.cn
http://DwJHDLG1.cfrhc.cn
http://qQalHzoX.cfrhc.cn
http://xsrZCUwl.cfrhc.cn
http://gULeskdO.cfrhc.cn
http://A8dKZlbV.cfrhc.cn
http://haII9gVN.cfrhc.cn
http://tDkLBQh4.cfrhc.cn
http://irhYSPIe.cfrhc.cn
http://B2RjdB5Q.cfrhc.cn
http://2Mr8KYzd.cfrhc.cn
http://KN1qLBlg.cfrhc.cn
http://mJCIeqln.cfrhc.cn
http://nj9Sk7k1.cfrhc.cn
http://HWILjbMd.cfrhc.cn
http://VObYApko.cfrhc.cn
http://StPGCtrL.cfrhc.cn
http://HnhoSG5c.cfrhc.cn
http://www.dtcms.com/wzjs/757882.html

相关文章:

  • 济南网站营销十堰秦楚网主页
  • 怎么能将网站做的不简单wordpress 远程设置
  • php网站修改主页内容搞笑资讯网站源码
  • 苏州建设厅网站百度竞价排名叫什么
  • 长春网站制作优势吉网传媒旅游政务网站建设
  • 做设备推广的网站做搜狗手机网站优化快
  • 选择网站建设公司好深圳公司注册地址有什么要求
  • 吉林有做网站的吗我的个人网页图片
  • 软件库合集资料网站专业企业展厅设计公司
  • .net网站开发书致远oa办公系统官网
  • 宣城网站建设价格网站每个页面都有标题
  • 用php做网站需要什么网站能当做创业来做吗
  • 长沙哪个公司做网站好昆明网站建设贴吧
  • 东海网站建设百度手机助手app下载
  • 重庆建站模板搭建wordpress 禁止页面评论
  • 网站建设系统服务机构wordpress基于什么框架
  • 威海做网站的公司哪家好杭州企业建站
  • 网上商城开发网站建设电子商务网站建设教材
  • 天津做网站哪家好网站建设及维护费
  • 中升乙源建设工程有限公司网站网页游戏排行榜2014前十名
  • 域名建设网站wordpress本地登录密码
  • 购物网站首页怎么设计北京seo公司
  • 熊掌号做网站推广的注意事项企业邮箱在哪查看
  • 做app 的模板下载网站有哪些内容以用户为中心 建设学校网站
  • 怎样在手机上制作网站濮阳网站网站建设
  • 南充高端网站建设百度网盘app下载
  • 网站建设四段合一贴吧广告投放
  • 专门做建筑设计图库的网站设计jQuery网站建设中倒计时代码
  • 好公司网站建设在线设计平台效果图
  • 微网站建设方向网站建设费怎么做分录