当前位置: 首页 > news >正文

建筑兔零基础人工智能自学记录101|Transformer(1)-14

Transformer

谷歌提出,一组编码-解码器

可以同时处理,通过位置编码来处理单词

实质是token词语接龙(只是有不同的概率)

token对应向量

Transformer简述

 文生图就需要用到transformer黑箱

 

token

 

内部层次

中间主要是embedding matrix嵌入矩阵、attention注意力模块、multilayer perception多层感知机(MLP)

attention注意力模块内部是互相交流的、multilayer perception多层感知机(MLP)内部是并行不交流的

 

 

   

本质就是线性代数

 

 

 

实质通过矩阵运算

 有不同的矩阵

 嵌入矩阵

 如何推测的举例:1、男人之于女人≈国王之于王后

 如何推测的举例:2、妈妈之于爸爸≈ 女人之于男人

                             3、希特勒+意大利-德国≈ 墨索里尼(从轴心国领导人/意大利两个角度找到)

                             4、寿司+德国-日本≈ 油煎香肠

 点积是表达两个向量是否相近的方式,通过运算结果正负判断

 

 context size就是一次处理向量的数量

 

所以当context size较少时,gpt会出现遗忘了之前说的

解嵌入矩阵

 softmax

补充:另一个transformer介绍,不是很生动。所以只看了开头。

 

 

 

http://www.dtcms.com/a/224834.html

相关文章:

  • LG P5048 [Ynoi2019 模拟赛] Yuno loves sqrt technology III Solution
  • 若依框架-定制化服务搭建
  • 信息安全之什么是公钥密码
  • 大模型应用开发之预训练
  • vue3的watch用法
  • 产品规格书写作结构、规范(编写指南)
  • 力扣热题100之翻转二叉树
  • 26考研——文件管理_文件目录(4)
  • 电机驱动器辐射骚扰整改
  • 关于用Cloudflare的Zero Trust实现绕过备案访问国内站点说明
  • HackMyVM-Ephemeral3
  • 考研系列—操作系统:第三章、内存管理(part.2)
  • AI书签管理工具开发全记录(八):Ai创建书签功能实现
  • MySQL事务与锁机制详解:确保数据一致性的关键【MySQL系列】
  • PostIn入门教程 - 使用IDEA插件快速生成API接口定义
  • Halcon
  • 力扣HOT100之动态规划:139. 单词拆分
  • 牛客周赛94
  • 极智项目 | 多模态大模型推理平台-Streamlit版(支持Qwen2.5/InternVL3/KimiVL三大模型)
  • 【CBAP50技术手册】#31 Observation(观察法):BA(业务分析师)的“现场侦探术”
  • 浮点数舍入规则_编程语言对比
  • CTFHub-RCE 命令注入-过滤运算符
  • [SC]SystemC在CPU/GPU验证中的应用(二)
  • R语言错误处理方法大全
  • CRISPR-Cas系统的小型化研究进展-文献精读137
  • python打卡day41
  • vue2源码解析——响应式原理
  • CentOS 7 安装docker缺少slirp4netnsy依赖解决方案
  • C51单片机
  • Python Day38 学习