当前位置: 首页 > news >正文

面试篇 - Transformer模型中的位置编码

1. 位置编码的引入

  • 背景:Transformer模型通过自注意力机制(Self-Attention)处理序列数据,但自注意力机制本身并不包含序列中元素的位置信息。因此,需要一种方法来为模型提供位置信息。

  • 解决方案:位置编码(Positional Encoding)被添加到词嵌入(Embedding)中,以提供序列中每个元素的位置信息。 Transformer模型中的位置编码又称为绝对位置编码。

2. 计算公式

  • 公式

  • 性质

    • 使用正弦(sin)和余弦(cos)函数的交替,可以通过线性变换矩阵得到其他位置的表示。

    • 位置编码包含了相对位置的信息,并且由于三角函数的生成规律,可以期望有外推性质。

3. 可视化效果

  • 图示:下图展示了长度为100,编码维度为512的序列的位置编码可视化。

    • 位置向量的值:由于正弦和余弦函数的性质,位置向量的每个值都位于 [−1,1] 之间。

    • 频率变化:图的右半边几乎都是黄色的,这是因为越往后的位置,频率越小,波长越长,所以不同的 t 对最终的结果影响不大。而越往左走,颜色交替的频率越频繁,表示位置编码的频率变化。

4. 公式推导

  • 推导

         

    这个公式展示了位置编码的相对位置信息和外推性质。

 

相关文章:

  • Windows 操作系统 - Windows 10 磁盘管理无法为 C 盘选择扩展卷
  • Java单例模式:实现全局唯一对象的艺术
  • Linux Kernel 3
  • LDAP渗透测试
  • java 线程池:IO密集型的任务(CPU核数 * 2 + 1),为什么这么设置,计算密集型任务( CPU核数+1 ),为什么这么设置
  • 火车头采集动态加载Ajax数据(无分页瀑布流网站)
  • Python numpy 与pandas
  • Apache Commons CLI 入门教程:轻松解析命令行参数
  • 运维面试题(十三)
  • linux一次启动多个jar包
  • 一键解锁Landsat 9地表温度计算!ENVI与ArcGIS Pro全流程详解(无需NASA大气校正)
  • 解决前端使用Axios时的跨域问题
  • 《MySQL从入门到精通》
  • 【数据集】上市公司投资效率及非效率投资数据测算+dofile(2000-2023年)
  • 深入理解计算机系统记录
  • README.md 完全指南:Markdown 语法+实例
  • 消息中间件kafka,rabbitMQ
  • MQTT、HTTP短轮询、HTTP长轮询、WebSocket
  • OBOO鸥柏如何以智能教育室内外触摸屏一体机AI变革硬件
  • 在Spring Boot中浅尝内存泄漏
  • 中国-拉共体成员国重点领域合作共同行动计划(2025-2027)
  • 走进“双遗之城”,领略文武风采:沧州何以成文旅新贵
  • 我国7名优秀护理工作者荣获第50届南丁格尔奖
  • 新造古镇丨乌镇的水太包容了,可以托举住任何一种艺术
  • 75万采购防火墙实为299元路由器?重庆三峡学院发布终止公告:出现违法违规行为
  • 前四月全国铁路完成固定资产投资1947亿元,同比增长5.3%