当前位置：首页 > news >正文

【NLP练习】Transformer中的位置编码

news 2025/8/14 21:56:07

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊

一、什么是位置编码

在这里插入图片描述

1. 位置编码定义

Transformer 模型中的位置编码是为了在处理序列数据时引入位置信息，以便模型能够分辨输入序列中不同位置的词或标记。
其中，每个位置/索引都映射到一个向量。因此，位置编码层的输出是一个矩阵，其中矩阵的每一行代表序列中的一个编码对象与其位置信息相加。下图为仅对位置信息进行编码的矩阵示例。

在这里插入图片描述

2. 三角函数

位置编码由不同频率的正弦和余弦函数给出，下图为正弦函数的快速回顾，不同波形的波长和频率如下所示：

在这里插入图片描述

3. 位置编码公式

假设有一个长度为L的输入序列，要计算第K个元素的位置编码。位置编码有不同频率的正弦和余弦函数给出：

$sin(\frac k {n^{2i/d}}).$
$cos(\frac k {n^{2i/d}}).$

参数详解：

$k$ ：对象（即句子中的字符）在输入序列中的位置， $\frac L 2$
$d$ ：输出嵌入空间的维度
$P (k, j)$ ：位置函数，用于映射输入序列中 $k$ 处的元素到位置矩阵的 $(k, j)$ 处
$n$ ：用户定义的标量（Transformer论文作者的值为10000）
$i$ ：用于映射到列索引， $0<=i<\frac d 2$ ，单个值 $i$ 映射到正弦和余弦函数

4. 位置编码示例

为理解上述表达式，以短语"I am a robot"为例，其中 $n = 100$ ， $d = 4$ 。下表显示了该短语的位置编码矩阵。对于任何 $n = 100$ ， $d = 4$ 的四字母短语，位置编码矩阵都是相同的。
在这里插入图片描述

二、可视化理解位置编码

1. Python实现位置编码

import numpy as np
import matplotlib.pyplot as plt

def getPositionEncoding(seq_len, d, n=10000):
    P = np.zeros((seq_len, d))
    for k in range(seq_len):
        for i in np.arange(int(d/2)):
            denominator = np.power(n, 2*i/d)
            P[k,2*i] = np.sin(k/denominator)
            P[k,2*i+1] = np.cos(k/denominator)
    return P

P = getPositionEncoding(seq_len = 4, d = 4, n = 100)
print(P)

输出如下：

[[ 0.          1.          0.          1.        ]
 [ 0.84147098  0.54030231  0.09983342  0.99500417]
 [ 0.90929743 -0.41614684  0.19866933  0.98006658]
 [ 0.14112001 -0.9899925   0.29552021  0.95533649]]

2. 单个字符可视化

查看 $n = 10000$ 和 $d = 512$ 的不同位置的正弦波开始

def plotSinusoid(k, d = 512, n = 10000):
    x = np.arange(0, 100, 1)
    denominator = np.power(n, 2*x/d)
    y = np.sin(k/denominator)
    plt.plot(x, y)
    plt.title('k = ' + str(k))

fig = plt.figure(figsize=(15,4))
for i in range(4):
    plt.subplot(141 + i)
    plotSinusoid(i * 4)

输出：
在这里插入图片描述
上图可看出每个位置对应不同的正弦曲线，将单个位置编码为向量。

3. 整句话的位置编码可视化

可视化 $n = 10000$ 的位置矩阵

P = getPositionEncoding(seq_len = 100, d=512, n = 10000)
cax = plt.matshow(P)
plt.gcf().colorbar(cax)

输出：
在这里插入图片描述

三、位置编码的最终输出

Transformer中的位置编码层把位置向量与单词编码相加，并为后续层输出该矩阵。整个过程如下图所示：
在这里插入图片描述

四、总结

Transformer的位置编码一方面通过正弦和余弦函数来编码位置信息，这种编码方式能够使得不同位置的编码在空间上有良好的分布。
另一方面分别使用正弦和余弦函数来编码偶数和奇数位置，以确保位置编码能够捕捉到位置之间的关系。

查看全文

http://www.dtcms.com/a/10993.html

Go模板页面浏览器显示HTML源码问题

最新下载：EasyRecovery易恢复软件安装视频教程

GEE数据融合——Landsat （collection 2，level 2 ）4、5、7、8、9长时间序列影像数据融合和视频导出分析

Idea jdk配置的地方启动时指定切换的地方

数据治理新视角：质量与真实度提升，让数据更有价值！

【Qt 学习笔记】Qt窗口 | 对话框 | 创建自定义对话框

Unity 从0开始编写一个技能编辑器_02_Buff系统的生命周期

人脸匹配——OpenCV

预编码算法（个人总结）

C语言详解（预编译）

【在线OJ】发帖功能前后段代码实现

昂科烧录器支持Prolific旺玖科技的电力监控芯片PL7413C1FIG

QPS、TPS、并发量、PV、UV

自动驾驶基础一车辆模型

base上海，数据科学，数据挖掘，数据分析等岗位求收留

二开版视频CMS完整运营源码/新版漂亮APP手机模板/集成员分销功能等

SAP Web IDE 安装使用

vue3框架基本使用(基础指令)

Elasticsearch-通过分析器进行分词

Spring Boot整合Redis实现发布/订阅功能

美团的 AI 面试有点简单

LVS+KeepAlived高可用负载均衡集群

微服务 | Springboot整合Dubbo+Nacos实现RPC调用

基于改进字典学习的旋转机械故障诊断方法（MATLAB）

二分+ST表+递推，Cf 1237D - Balanced Playlist

重构大学数学基础_week04_从点积理解傅里叶变换

基于深度学习从2D图像中恢复3D图形

对象存储服务的加密特性

Flask快速入门（路由、CBV、请求和响应、session）

一杯咖啡的艺术 | 如何利用数字孪生技术做出完美的意式浓缩咖啡？

一、什么是位置编码

1. 位置编码定义

2. 三角函数

3. 位置编码公式

4. 位置编码示例

二、可视化理解位置编码

1. Python实现位置编码

2. 单个字符可视化

3. 整句话的位置编码可视化

三、位置编码的最终输出

四、总结

相关文章：