当前位置：首页 > news >正文

建筑兔零基础人工智能自学记录101|Transformer（1）-14

news 2025/7/22 7:50:58

Transformer

谷歌提出，一组编码-解码器

可以同时处理，通过位置编码来处理单词

实质是token词语接龙（只是有不同的概率）

token对应向量

Transformer简述

文生图就需要用到transformer黑箱

token

内部层次

中间主要是embedding matrix嵌入矩阵、attention注意力模块、multilayer perception多层感知机(MLP)

attention注意力模块内部是互相交流的、multilayer perception多层感知机(MLP)内部是并行不交流的

本质就是线性代数

实质通过矩阵运算

有不同的矩阵

嵌入矩阵

如何推测的举例：1、男人之于女人≈国王之于王后

如何推测的举例：2、妈妈之于爸爸≈ 女人之于男人

3、希特勒+意大利-德国≈ 墨索里尼（从轴心国领导人/意大利两个角度找到）

4、寿司+德国-日本≈ 油煎香肠

点积是表达两个向量是否相近的方式，通过运算结果正负判断

context size就是一次处理向量的数量

所以当context size较少时，gpt会出现遗忘了之前说的

解嵌入矩阵

softmax

补充：另一个transformer介绍，不是很生动。所以只看了开头。

http://www.dtcms.com/a/224834.html

相关文章：

LG P5048 [Ynoi2019 模拟赛] Yuno loves sqrt technology III Solution

若依框架-定制化服务搭建

信息安全之什么是公钥密码

大模型应用开发之预训练

vue3的watch用法

产品规格书写作结构、规范（编写指南）

力扣热题100之翻转二叉树

26考研——文件管理_文件目录（4）

电机驱动器辐射骚扰整改

关于用Cloudflare的Zero Trust实现绕过备案访问国内站点说明

HackMyVM-Ephemeral3

考研系列—操作系统：第三章、内存管理(part.2)

AI书签管理工具开发全记录（八）：Ai创建书签功能实现

MySQL事务与锁机制详解：确保数据一致性的关键【MySQL系列】

PostIn入门教程 - 使用IDEA插件快速生成API接口定义

Halcon

力扣HOT100之动态规划：139. 单词拆分

牛客周赛94

极智项目 | 多模态大模型推理平台-Streamlit版（支持Qwen2.5/InternVL3/KimiVL三大模型）

【CBAP50技术手册】#31 Observation（观察法）：BA（业务分析师）的“现场侦探术”

浮点数舍入规则_编程语言对比

CTFHub-RCE 命令注入-过滤运算符

[SC]SystemC在CPU/GPU验证中的应用（二）

R语言错误处理方法大全

CRISPR-Cas系统的小型化研究进展-文献精读137

python打卡day41

vue2源码解析——响应式原理

CentOS 7 安装docker缺少slirp4netnsy依赖解决方案

C51单片机

Python Day38 学习