当前位置: 首页 > news >正文

大模型微调 - transformer架构

什么是Transformer

Transformer 架构是由 Vaswani 等人在 2017 年提出的一种深度学习模型架构,首次发表于论文《Attention is All You Need》中

Transformer 的结构

在这里插入图片描述

Transformer = 编码器(Encoder) + 解码器(Decoder)

  • 编码器(Encoder):将输入序列编码成上下文相关的表示。

  • 解码器(Decoder):根据编码器输出和已有的目标序列预测下一个词。

标准的 Transformer 模型通常包含:

  • 6 个编码器层(Encoder Layers)

  • 6 个解码器层(Decoder Layers)

编码器结构(每层)

每个编码器层包含两个子层(Sublayers):

  • 多头自注意力机制(Multi-Head Self-Attention)
  • 前馈全连接网络(Feed-Forward Neural Network)提供非线性能力

每个子层外面都有:

  • 残差连接(Residual Connection),避免梯度消失
  • 层归一化(Layer Normalization),保持每一层输入和输出的数值稳定、分布一致

解码器结构(每层)

每个解码器层包含三个子层:

  • Masked 多头自注意力机制
  • Encoder-Decoder 注意力机制
  • 前馈神经网络
    也有残差连接和层归一化。

相关文章:

  • 全球碳化硅晶片市场深度解析:技术迭代、产业重构与未来赛道争夺战(2025-2031)
  • Linux部署ragflow,从安装docker开始~
  • 斗鱼娱乐电玩平台源码搭建实录
  • 课程9. 机器翻译,Seq2Seq与Attention
  • EasyRTC音视频实时通话嵌入式SDK,打造社交娱乐低延迟实时互动的新体验
  • 嵌入式鸿蒙系统环境搭建与配置要求实现01
  • .NET中,const和readonly区别
  • 鸿蒙NEXT开发剪贴板工具类(ArkTs)
  • Gradle安装与配置国内镜像源指南
  • 【前缀和计算和+哈希表查找次数】Leetcode 560. 和为 K 的子数组
  • 零基础教学:用GISBox将RVT转为3DTiles
  • 日本企业突破机器人感知技术:人形机器人获嗅觉能力
  • 那些年踩过的坑之Arrays.asList
  • 7.Excel:单元格格式
  • Easysearch 基础运维扫盲指南:从 HTTP 到 HTTPS、认证与安全访问全解析
  • OpenCV 图形API(64)图像结构分析和形状描述符------在图像中查找轮廓函数findContours()
  • AI编程:[体验]从 0 到 1 开发一个项目的初体验
  • 如何在IDEA中高效使用Test注解进行单元测试?
  • 产品动态|千眼狼sCMOS科学相机捕获单分子荧光信号
  • 前端面试(Vue React)内容目录与备考建议
  • 沈晓萍︱严金清:比斯坦因更早获得敦煌文物的无锡名士
  • 美乌矿产协议签署被曝“临门一脚”时生变,美方提附加条件
  • 孙磊已任中国常驻联合国副代表、特命全权大使
  • 神十九乘组安全顺利出舱
  • 辽宁辽阳市白塔区一饭店发生火灾,当地已启动应急响应机制
  • 华夏银行一季度营收降逾17%、净利降逾14%,公允价值变动损失逾24亿