当前位置: 首页 > news >正文

建筑兔零基础人工智能自学记录101|Transformer(1)-14

Transformer

谷歌提出,一组编码-解码器

可以同时处理,通过位置编码来处理单词

实质是token词语接龙(只是有不同的概率)

token对应向量

Transformer简述

 文生图就需要用到transformer黑箱

 

token

 

内部层次

中间主要是embedding matrix嵌入矩阵、attention注意力模块、multilayer perception多层感知机(MLP)

attention注意力模块内部是互相交流的、multilayer perception多层感知机(MLP)内部是并行不交流的

 

 

   

本质就是线性代数

 

 

 

实质通过矩阵运算

 有不同的矩阵

 嵌入矩阵

 如何推测的举例:1、男人之于女人≈国王之于王后

 如何推测的举例:2、妈妈之于爸爸≈ 女人之于男人

                             3、希特勒+意大利-德国≈ 墨索里尼(从轴心国领导人/意大利两个角度找到)

                             4、寿司+德国-日本≈ 油煎香肠

 点积是表达两个向量是否相近的方式,通过运算结果正负判断

 

 context size就是一次处理向量的数量

 

所以当context size较少时,gpt会出现遗忘了之前说的

解嵌入矩阵

 softmax

补充:另一个transformer介绍,不是很生动。所以只看了开头。

 

 

 

相关文章:

  • LG P5048 [Ynoi2019 模拟赛] Yuno loves sqrt technology III Solution
  • 若依框架-定制化服务搭建
  • 信息安全之什么是公钥密码
  • 大模型应用开发之预训练
  • vue3的watch用法
  • 产品规格书写作结构、规范(编写指南)
  • 力扣热题100之翻转二叉树
  • 26考研——文件管理_文件目录(4)
  • 电机驱动器辐射骚扰整改
  • 关于用Cloudflare的Zero Trust实现绕过备案访问国内站点说明
  • HackMyVM-Ephemeral3
  • 考研系列—操作系统:第三章、内存管理(part.2)
  • AI书签管理工具开发全记录(八):Ai创建书签功能实现
  • MySQL事务与锁机制详解:确保数据一致性的关键【MySQL系列】
  • PostIn入门教程 - 使用IDEA插件快速生成API接口定义
  • Halcon
  • 力扣HOT100之动态规划:139. 单词拆分
  • 牛客周赛94
  • 极智项目 | 多模态大模型推理平台-Streamlit版(支持Qwen2.5/InternVL3/KimiVL三大模型)
  • 【CBAP50技术手册】#31 Observation(观察法):BA(业务分析师)的“现场侦探术”
  • 厦门蓝典网站建设/谷歌浏览器手机版免费官方下载
  • 网站域名去哪买/seo图片优化的方法
  • 企业融资的主要方式/南宁市优化网站公司
  • 中山企业网站建设定制/seo为什么要进行外部优化
  • 做网站纸张大小/seo快速推广窍门大公开
  • 网站美工色彩搭配/常德网站seo