当前位置: 首页 > news >正文

Rotary Positional Embedding

先介绍几个之前的PE:

1. Absolute Positional Embedding

比如 Transformer原论文中的PE。

问题:理论上讲,位置1,2对应的PE应该在距离上比位置1,500的PE更接近,但APE做不到这一点。

2.Relative Positional Embedding

解决了APE中的问题,但也带来了计算效率低下等问题。此处不对RPE做详细介绍

3.Learned Positional Embedding

每个位置的PE通过学习得到。

问题:如果训练集中的Sequence Length都是512以内,那么当推理时遇到长度长于512得到sequence时,就会出问题了。

4.Rotary Positional Embedding

不太懂旋转矩阵的可以参考这个链接

RoPE怎么做的?请看:
在这里插入图片描述
当embedding维度为2时,position的位置每往后一个,就把embedding对应维度旋转θ角度,这就是RoPE的核心思想。

再看论文的公式13:
在这里插入图片描述
其中 x m x_m xm表示位置 m m m处的embedding(由embedding层得到,还不含PE信息); { q , k } \{q,k\} {q,k}表示得到的是 q q q或者 k k k的表示(不含 v v v)。

矩阵乘法的后两项,就是把二维的embedding映射到 q q q k k k的简单映射(四个W都是标量)。这里的操作和Attention Is All You Need中得到 q q q或者 k k k的操作是完全一样的(如果去掉Attention Is All You Need中的PE的话)。

而矩阵的第一项,就是把矩阵做一个简单的旋转,这一点我们已经提到过了。

当embedding维度大于2的时候怎么办呢?我们只需要将维度2个2个地进行旋转就行了:
在这里插入图片描述
原始论文也对这一过程进行了图解说明:
在这里插入图片描述

参考链接

参考链接1
参考链接2
参考链接3

相关文章:

  • QT6 源(72):阅读与注释单选框这个类型的按钮 QRadioButton,及各种属性验证,
  • 存在重复元素II(简单)
  • Three.js在vue中的使用(二)-加载、控制
  • web应用开发说明文档
  • 连续变量与离散变量的互信息法
  • pcf8563时钟驱动编写记录
  • C++/SDL 进阶游戏开发 —— 双人塔防(代号:村庄保卫战 20)
  • Java响应式编程
  • 【C++篇】类和对象(上)
  • 第6章 Python 基本数据类型详解(int, float, bool, str)细节补充
  • 探索Grok-3的高级用法:功能与应用详解
  • SeataAT模式
  • 【傻呱呱】BIOS里的某个启动引导项丢失如何找回?
  • AtCoder AT_abc404_g [ABC404G] Specified Range Sums
  • Windows下编译WebRTC源码
  • 第1章 Python 解释器安装(Anaconda/Pyenv 推荐)
  • STM32基础教程——软件I2C
  • 域名与官网的迷思:数字身份认证的全球困境与实践解方-优雅草卓伊凡
  • RT-Thread studio的驱动5.1.0报错修改
  • Mybatisplus:一些常用功能
  • 赵乐际主持十四届全国人大常委会第十五次会议闭幕会并作讲话
  • 李开复出任福耀科技大学理事会理事,助力学校AI战略
  • 何立峰出席驻沪中央金融机构支持上海建设国际金融中心座谈会并讲话
  • 跟着京剧电影游运河,京杭大运河沿线六城举行京剧电影展映
  • 一季度规模以上工业企业利润由降转增,国家统计局解读
  • “十四五”以来少数民族发展资金累计下达边疆省区252亿元