当前位置: 首页 > wzjs >正文

如何做网站建设方案百度小说搜索排行榜

如何做网站建设方案,百度小说搜索排行榜,网站里面那些工作是做晚上兼职的,涞水网站建设大模型学习笔记------Llama 3模型架构之旋转编码(RoPE) 1、位置编码简介1.1 绝对位置编码1.2 相对位置编码 2、旋转编码(RoPE)2.1 基本概念---旋转矩阵2.2 RoPE计算原理2.2.1 绝对位置编码2.2.2 相对位置编码 3、旋转编码&#xf…

大模型学习笔记------Llama 3模型架构之旋转编码(RoPE)

    • 1、位置编码简介
      • 1.1 绝对位置编码
      • 1.2 相对位置编码
    • 2、旋转编码(RoPE)
      • 2.1 基本概念---旋转矩阵
      • 2.2 RoPE计算原理
        • 2.2.1 绝对位置编码
        • 2.2.2 相对位置编码
    • 3、旋转编码(RoPE)的优点

    上文简单介绍了 Llama 3模型架构。旋转位置编码(Rotary Position Embedding,RoPE)来自论文 Roformer: Enhanced Transformer With Rotray Position Embedding ,LLama 3、GLM 等模型都是使用了这种编码方式。RoPE是一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。

1、位置编码简介

    位置编码(Positional Encoding)主要是为了解决Transformer中的时序问题,类似RNN的结构包含序列的时序信息。因此,位置编码是Transformer中确保模型能够理解序列顺序信息的重要部分。
    怎样理解位置编码呢?在Transformer结构中,将每个位置进行编号(即位置编码),并将每个位置编号(位置向量)对应一个词向量。通过结合位置向量和词向量作为输入embedding,就给每个词都引入了一定的位置信息,这样Attention就可以分辨出不同位置的词了。
    Transformer中常见的位置编码方法主要是绝对位置编码(Absolute Positional Encoding)和相对位置编码(Relative Positional Encoding)。

  • 绝对位置编码:在序列中的每个位置直接关联一个固定的嵌入;
  • 相对位置编码:表示序列中每两个token之间的相对位置信息;

1.1 绝对位置编码

    绝对位置编码的经典方法为正弦-余弦绝对位置编码,具体计算如下所示:
在这里插入图片描述其中, pos 表示序列中的位置, d 表示嵌入维度。例如pos分别等于0、1、2,其计算如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
    这种方法通过给定的位置索引为每个位置提供唯一的编码,确保模型能够理解token之间的顺序。

1.2 相对位置编码

    给定两个位置 i 和 j,其相对距离具体计算如下所示:
在这里插入图片描述
    相对位置可以是正的也可以是负的。相对位置编码关注的是序列中两个token之间的相对距离,而非绝对位置。

    这里就衍生出来了一个很有趣的问题,两种编码哪个更好一些呢?当然是相对位置编码。原因如下:
    绝对位置编码为每个位置生成独特的编码,这种方式对具体位置非常依赖,因此模型在处理输入时位置信息的影响很大。例如,输入序列中的一个特定单词在不同的句子位置上可能会有不同的表示,导致模型对该位置产生过度依赖。
    相对位置编码强调的是元素之间的相对位置(即一个元素与其他元素的相对距离),而不是它们的具体绝对位置。这使得模型能够在不同的上下文中识别相似的模式,因为相对位置与具体的序列长度和起始位置无关,从而增加了模型的泛化能力。

2、旋转编码(RoPE)

    RoPE(Rotary Position Embedding)结合了绝对和相对位置编码的优点。它使用旋转矩阵对每个位置进行编码,并直接将相对位置信息引入自注意力操作中。

2.1 基本概念—旋转矩阵

    在固定坐标系中,给定向量在这里插入图片描述以逆时针旋转O得到在这里插入图片描述
在这里插入图片描述
    其计算如下所示:
在这里插入图片描述
在这里插入图片描述

2.2 RoPE计算原理

2.2.1 绝对位置编码

    假设输入向量为在这里插入图片描述,其第 在这里插入图片描述个位置的编码向量可以表示为:

在这里插入图片描述
    旋转矩阵 在这里插入图片描述用二维旋转矩阵的张量乘积进行定义。将向量在这里插入图片描述拆分为一系列长度为2的子向量 在这里插入图片描述。其旋转形式为:
在这里插入图片描述
在这里插入图片描述
    这个矩阵表示每个位置在这里插入图片描述的绝对编码。

    经过RoPE编码后的输入向量与旋转矩阵结合,使得位置信息被直接嵌入到输入向量中。任意偶数维的RoPE,我们都可以表示为二维情形的拼接,即将词嵌入向量元素按照两两一组分组
在这里插入图片描述
    RoPE 的 self-attention 操作的流程如下:
在这里插入图片描述

2.2.2 相对位置编码

    RoPE在自注意力计算中引入相对位置信息。经过RoPE编码的 query(查询)向量在这里插入图片描述和key(键)向量在这里插入图片描述,在自注意力机制中的点积计算如下:

在这里插入图片描述
在这里插入图片描述
    这意味着RoPE在计算query和key之间的点积时,将相对位置信息直接融入了自注意力操作中。

3、旋转编码(RoPE)的优点

    RoPE的优点主要有以下几个方面:

    1)保持绝对位置信息:
      RoPE通过旋转矩阵编码每个位置的绝对信息,有效地保持了模型对绝对位置感知能力;
    2)引入相对位置信息:
      RoPE能够在自注意力操作中直接编码相对位置信息,使模型具有较好的相对位置感知能力;
    3)高效处理长序列:
      RoPE在处理长序列时通过在每一层的自注意力计算中使用旋转变换,确保了位置信息能够被有效保留和利用。这种方法减少了位置信息的损失,使得模型在处理长序列时能够保持较好的性能‌。

    RoPE通过旋转矩阵将绝对位置与相对位置信息相结合,既提供了绝对位置信息的精确性,又具备相对位置感知的灵活性,成为LLaMA等大型语言模型中重要的位置编码方法。

http://www.dtcms.com/wzjs/504323.html

相关文章:

  • c 做网站的六大对象小红书seo优化
  • 中国网站开发我要登录百度
  • 百度收录个人网站是什么怎么做外贸网站制作公司
  • 申请收费网站空间青岛seo软件
  • 做一些购物网站网站优化排名软件哪些最好
  • 网页设计与制作黑马程序员seoul是什么国家
  • 东莞凤岗哪里有学做网站的石家庄关键词优化平台
  • oa和erp系统区别seowhy论坛
  • 保洁公司网站源码企业整站seo
  • 网站建设 思维导图设计公司网站设计
  • 宝安做网站哪家好百度网址大全官网
  • 可以做h5游戏的网站昆明seo工资
  • 可以做ps兼职的网站seo权重查询
  • 重庆市住建厅网站外贸网站推广seo
  • 怀化市建设局招投标网站手游免费0加盟代理
  • 网站怎么做转发搜索引擎大全排行
  • wordpress语言切换网站网络整合营销是什么意思
  • 企业名录模板上海关键词优化推荐
  • 展示类网站今日国内新闻最新消息大事
  • 做网站百度四川网络推广seo
  • 顺德区网站设计网站开发的基本流程
  • 凡科建站官网登录入口网页版seo外包公司兴田德润
  • 优质的网站建设流程seo项目完整流程
  • 中国建设银行纪念币预约网站百度seo推广方案
  • 北京网站建设价培训推广 seo
  • 新手学做网站需要注意的几点whois查询
  • 三里河网站建设怎样做好服务营销
  • 进腾讯做游戏视频网站百度在线入口
  • 建设企业网站专业服务河南网站建设制作
  • 免费注册个人网站拓客软件