当前位置: 首页 > news >正文

transfmer学习认识

整体架构

在这里插入图片描述

1.自注意机制

1.1.softmax

在机器学习和深度学习中,softmax 函数是一个常用的激活函数,用于将一个向量转换为一个概率分布。softmax 函数的公式如下:
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/35c158988402498ba6ca699389a7f2c1.png
在这里插入图片描述

softmax 函数的作用
将输出转换为概率分布:softmax 函数可以将一个向量的每个元素转换为一个介于 0 和 1 之间的值,并且所有元素的和为 1。这使得输出可以被解释为概率分布。
多分类问题:在多分类问题中,softmax 函数常用于最后一层,将模型的输出转换为每个类别的概率。

1.2.dk开根号和 除以8的关系

在这里插入图片描述
这张图片展示了Transformer模型中的自注意力(Self-Attention)机制的一个计算示例,特别是如何计算注意力分数和应用Softmax函数来确定每个输入元素的重要性。

图片内容解释
1.2.1.输入和词嵌入:

输入是两个单词“Thinking”和“Machines”,它们首先被转换为词嵌入向量(x1和x2)。
查询、键和值向量:
对于每个输入单词,模型生成查询向量(q1和q2)、键向量(k1和k2)和值向量(v1和v2)。

1.2.2.打分:

计算查询向量与所有键向量的点积来得到分数(例如,q1与k1的点积为112,q1与k2的点积为96)。

1.2.3.除以根号维度:

为了防止点积结果过大导致梯度爆炸,通常会除以键向量的维度的平方根(sqrt(d_k)),这里d_k是键向量的维度。图片中显示除以8(可能是sqrt(d_k)的一个示例值)。

1.2.4.Softmax:

将得到的分数通过Softmax函数转换为概率分布,表示每个值向量相对于其他值向量的重要性。例如,q1与k1的分数为14,与k2的分数为12,经过Softmax处理后,得到的概率分别为0.88和0.12。
自注意力机制的作用
自注意力机制允许模型在处理序列数据时动态地关注序列中不同部分的重要性。这种机制是Transformer模型的核心,使得模型能够有效地处理长距离依赖问题,并在各种序列到序列的任务中表现出色,如机器翻译、文本摘要等。
总结
这张图片通过一个简单的例子展示了Transformer模型中的自注意力机制如何工作。通过计算查询向量与键向量的点积,然后应用Softmax函数,模型能够确定序列中每个元素的重要性,从而更好地理解和生成文本。这种机制是Transformer模型能够有效处理序列数据的关键。
在这里插入图片描述

残差连接

在这里插入图片描述
概念:残差连接是深度学习中的一种技术,它将输入直接加到后面的层的输出上,目的是缓解深层网络训练中的梯度消失或梯度爆炸问题,使得网络可以训练得更深。
应用:在Multi-Head Attention中,输入矩阵 α 直接与输出 b 相加。这种设计可以让模型更容易学习到输入和输出之间的残差,从而加快训练速度并提高模型性能。

层归一化

在这里插入图片描述

参考:

1.【原理篇&实战篇】一文读懂Transformer
2.万字长文,小白都能看得懂的 Transformer 解析(图解版)

相关文章:

  • 【iOS】Blocks
  • Mysql-------事务
  • PWM(脉宽调制)技术详解:从基础到应用实践示例
  • 动态规划之背包问题
  • 正式页面开发-登录注册页面
  • 阿里云k8s服务部署操作一指禅
  • ECharts极简入门
  • 基于STM32设计的自动追光系统(系统资料)
  • 基于Chatbox AI部署Deepseek等模型
  • 环境变量1
  • 在项目中调用本地Deepseek(接入本地Deepseek)
  • 基于ffmpeg+openGL ES实现的视频编辑工具-字幕添加(六)
  • Django项目之订单管理part1
  • VS Code 如何搭建C/C++开发环境
  • Aseprite绘画流程案例(1)——画相机图标
  • Ubuntu 下 nginx-1.24.0 源码分析 - ngx_test_full_name
  • 如何使用Spark SQL进行复杂的数据查询和分析
  • 一些耳朵起茧子的名词解释
  • 快速查询区间overlap的C/C++库:cgranges
  • C++ Primer 类的作用域
  • 《歌手2025》公布首发阵容,第一期就要淘汰一人
  • 深圳拟出让3宗居住用地,共计用地面积6.77公顷
  • 北斗专访|特赞科技范凌:现在AI主要是“说话”,接下来要“干活”了
  • 习近平出席中国-拉美和加勒比国家共同体论坛第四届部长级会议开幕式
  • 王毅会见巴西外长维埃拉、总统首席特别顾问阿莫林
  • 从普通人经历中发现历史,王笛解读《线索与痕迹》