当前位置：首页 > wzjs >正文

八年级信息上册如何做网站北京百度推广电话

wzjs 2025/7/28 3:47:13

八年级信息上册如何做网站,北京百度推广电话,asp网站qq登录,合肥房产网签备案查询系统3.3.2 计算所有输入 token 的注意力权重如图 3.11 所示，到目前位置，已经计算了输入中的第二个词元的注意力权重和上下文向量，接下来将扩展这一计算过程，为所有输入计算注意力权重和上下文向量。图 3.11 高亮的行展示了以第二个…

3.3.2 计算所有输入 token 的注意力权重

如图 3.11 所示，到目前位置，已经计算了输入中的第二个词元的注意力权重和上下文向量，接下来将扩展这一计算过程，为所有输入计算注意力权重和上下文向量。

在这里插入图片描述

图 3.11 高亮的行展示了以第二个输入元素作为查询时的注意力权重。接下来把计算过程推广，以获得所有其他的注意力权重。（请注意，此图中的数字取到小数点后两位。每行中的数值总和应为 1.0 或 100%。）

与之前的步骤一样（见图 3.12），只是修改了一些代码，从而计算所有输入的上下文向量。

attn_scores = torch.empty(6, 6)
for i, x_i in enumerate(inputs):for j, x_j in enumerate(inputs):attn_scores[i, j] = torch.dot(x_i, x_j)
print(attn_scores)

在这里插入图片描述

图 3.12 在第一步中，增加了 for 循环，用以计算所有输入对的点积。

上述代码计算所得结果如下：

tensor([[0.9995, 0.9544, 0.9422, 0.4753, 0.4576, 0.6310],[0.9544, 1.4950, 1.4754, 0.8434, 0.7070, 1.0865],[0.9422, 1.4754, 1.4570, 0.8296, 0.7154, 1.0605],[0.4753, 0.8434, 0.8296, 0.4937, 0.3474, 0.6565],[0.4576, 0.7070, 0.7154, 0.3474, 0.6654, 0.2935],[0.6310, 1.0865, 1.0605, 0.6565, 0.2935, 0.9450]])

张量中的每个元素代表每对输入之间的注意力分数，正如图 3.11 中看到的那样。请注意，该图中的值是经过归一化的，这就是它们与前一个张量中未归一化的注意力分数不同的原因。我们将在之后处理归一化的问题。

在计算前述的注意力分数张量时，使用了 Python 中的 for 循环。然而，for 循环通常较慢，所以，最佳选择是使用矩阵乘法：

attn_scores = inputs @ inputs.T
print(attn_scores)

会得到与之前一样的输出结果。

在图 3.12 的第 2 步中，对每一行进行归一化，使得每一行的数值之和为 1：

attn_weights = torch.softmax(attn_scores, dim=-1)
print(attn_weights)

返回的是注意力权重张量，其数值与图 3.10 中显示的值一致：

tensor([[0.2098, 0.2006, 0.1981, 0.1242, 0.1220, 0.1452],[0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581],[0.1390, 0.2369, 0.2326, 0.1242, 0.1108, 0.1565],[0.1435, 0.2074, 0.2046, 0.1462, 0.1263, 0.1720],[0.1526, 0.1958, 0.1975, 0.1367, 0.1879, 0.1295],[0.1385, 0.2184, 0.2128, 0.1420, 0.0988, 0.1896]])

在使用 PyTorch 的上下文中，像 torch.softmax 这样的函数中的 dim 参数指定了输入张量沿着哪个维度计算函数。通过设置 dim=-1，指示 softmax 函数沿着 attn_scores 张量的最后一个维度应用归一化。如果 attn_scores 是一个二维张量（例如，形状为 [行, 列]），它将在列上进行归一化，使得每一行的值（在列维度上求和）总和为 1。

可以通过以下方式验证各行的总和确实都为 1：

row_2_sum = sum([0.1385, 0.2379, 0.2333, 0.1240, 0.1082, 0.1581])
print("Row 2 sum:", row_2_sum)
print("All row sums:", attn_weights.sum(dim=-1))

结果是：

Row 2 sum: 1.0
All row sums: tensor([1.0000, 1.0000, 1.0000, 1.0000, 1.0000, 1.0000])

在图 3.12 的第三步也是最后一步中，使用这些注意力权重通过矩阵乘法来计算所有的上下文向量：

all_context_vecs = attn_weights @ inputs
print(all_context_vecs)

输出如下张量，每一行是一个三维的上下文向量：

tensor([[0.4421, 0.5931, 0.5790],[0.4419, 0.6515, 0.5683],[0.4431, 0.6496, 0.5671],[0.4304, 0.6298, 0.5510],[0.4671, 0.5910, 0.5266],[0.4177, 0.6503, 0.5645]])

将第上述结果中的二行与 3.3.1 节中计算出的上下文向量 $z^{(2)}$ 进行比较，验证代码的正确性：

print("Previous 2nd context vector:", context_vec_2)

根据输出结果可以看出，之前计算得到的 context_vec_2 与以上输出的张量中的第二行完全一致：

Previous 2nd context vector: tensor([0.4419, 0.6515, 0.5683])

以上是对一个简单自注意力机制代码的完整解析。接下来，将添加可训练权重，使大语言模型（LLM）能够从数据中学习，并在特定任务上提升其性能。

查看全文

http://www.dtcms.com/wzjs/121475.html

黑龙江做网站的公司有哪些优秀网站设计案例

有没有学做蛋糕的网站和视频优化好搜移动端关键词快速排名

app手机网站模板免费下载谷歌官网登录入口

西安网站开发招聘西安百度推广公司

天元建设集团有限公司公章图片企业网站推广优化公司

宁波营销型网站建设优化建站关键词优化seo优化排名

鹤山网站建设网络推广推广培训

重庆做兼职哪个网站360免费做网站

一般网站开发公司在线代理浏览网站

网站后台框架模版宁波seo排名优化价格

品牌网站推广方案外链代发2分一条

网站建设公司资质网站关键词上首页

微信网站推广我在百度下的订单如何查询

优秀的手机网站2022年最新十条新闻

做网站推广的好处优化大师兑换码

建设大型电子商务网站网店代运营合同

襄樊网站建设哪家好百度推广联系方式

做预算需要关注哪些政府网站站长统计

锦州网站建设工作招聘seo专员

曲阜网站建设百度开户编程培训机构加盟哪家好

企业网站的功能模块百度推广账户怎么开

东莞做营销型网站夸克搜索引擎入口

江门网站设计佛山网络推广培训

全国工厂的网站建设网址百度刷排名

网站设计风格分析石家庄seo关键词

宣传软文怎么写武汉久都seo

百度做的网站和其他网站的区别seo教程自学网

网站制作关键百度网络营销app

php网站修改主页内容友情链接交易网站源码

海口网站建设加王道下拉搜索引擎推广的基本方法有

3.3.2 计算所有输入 token 的注意力权重

相关文章：