当前位置: 首页 > news >正文

雄安建设集团 网站湖北做网站教程哪家好

雄安建设集团 网站,湖北做网站教程哪家好,博客网站主页代码html,wordpress改商城文章目录 前言一、伪代码一:POMO Training二、伪代码二:POMO Inference三、POMO注意力模型3.1、自注意力机制3.2、AM模型 前言 以下主要讲解两个算法的伪代码以及注意力模型。 一、伪代码一:POMO Training POMO Training是POMO模型训练的伪…

文章目录

  • 前言
  • 一、伪代码一:POMO Training
  • 二、伪代码二:POMO Inference
  • 三、POMO注意力模型
    • 3.1、自注意力机制
    • 3.2、AM模型


前言

以下主要讲解两个算法的伪代码以及注意力模型。


一、伪代码一:POMO Training

POMO Training是POMO模型训练的伪代码。具体如下:
在这里插入图片描述
该算法的输入信息包括训练集S,每个样本起始节点的个数N,训练步骤的数量T,批量大小B。
初始化策略网络的参数 θ \theta θ
在训练循环中共进行T次训练。
从训练集S中采样输入数据 s i s_i si其中i为批次数,批量大小为B。注: s i s_i si是一组数据。
在每一个样本 s i s_i si中选择N个起始节点,使用策略网络依据样本 s i s_i si所对应的每一个起始节点和样本数据 s i s_i si生成共计N个轨迹。
计算每一个样本 s i s_i si的平均奖励 b i b_i bi,其就是N条轨迹奖励的平均值。
计算目标函数 J ( θ ) J(\theta) J(θ)的梯度。再根据计算出的梯度更新策略网络的参数 θ \theta θ


二、伪代码二:POMO Inference

该伪代码描述了如何使用已经训练好的策略网络进行推理。推理的目的是通过已训练的策略网络来选择最优的轨迹。具体如下:
在这里插入图片描述
算法输入为:输入数据s,策略 π \pi π,起始节点数N,和变换次数K。
将输入数据进行“augment”生成多个样本(常用的“augment”为,将节点坐标根据坐标轴进行对称反转),这里生成K个变种样本。
在每个样本中选取N个起始节点,对每个样本 s k s_k sk和起始节点 α k j \alpha^j_k αkj进行贪婪轨迹生成,得到N个轨迹。
选取最大奖励的轨迹,其为输出的最佳轨迹。


三、POMO注意力模型

3.1、自注意力机制

自注意力机制的任务是通过计算每个输入元素之间的相似度来动态地调整其表示。对于每个元素(单词),通过查询(Query)、键(Key)和值(Value)来计算其与其他元素的关系,并生成一个加权的输出。

在编码器中,自注意力计算过程的步骤如下:

  • 对于每个输入元素,计算其对应的查询(Query)、键(Key)和值(Value)向量。
  • 计算查询和所有键的点积得到注意力分数,反映了每个元素对其他元素的关注程度。
  • 使用Softmax对分数进行归一化,得到权重。
  • 用这些权重加权每个值向量(Value),得到新的表示。

自注意力机制本质上是对值根据权重进行新的表示,这里的权重表达的含义是节点与节点之间的关系。

3.2、AM模型

POMO使用的注意力模型是AM模型。它主要由两部分组成:编码器和解码器。
AM模型中的编码器并不受POMO生成N条轨迹所影响。因为要生成N条轨迹所以解码器需要进行改动,将N个查询(queries)整合为一个单一的矩阵,将其传递给注意力机制进行并行处理

http://www.dtcms.com/a/557364.html

相关文章:

  • 晋城市 制作网站织梦网站文章发布模板下载
  • Microsoft Speech TTS微软语音识别ISpeechRecoGrammar,ISpeechRecoResult
  • 【Java 开发日记】运行时有出现过什么异常?
  • 企业门户网站设计扬州网页设计培训
  • 从大模型中的chat_template了解jinja模板语法
  • Pandas--数据选择与索引
  • Linux下编译WebSocket++
  • 淄博哪家公司做网站最好莱钢吧贴吧
  • 调试的艺术:从崩溃到洞察的全面指南
  • 深入洞察:大模型服务之MaaS平台
  • 1024.5不是数位和--------题解
  • 加强门户网站建设的通知博客和网站的区别
  • 阿里云网站建站网站建设的公司这个
  • 基于AWS多区域部署的高可用性与灾难恢复架构设计
  • 海外注册域名的网站好石家庄专业网站营销
  • HTML CSS八股
  • 免费网页源代码网站个人微信营销
  • 【项目实战1 -瑞吉外卖|day23 】
  • QuickLook:文件预览
  • 使用QKeyEvent keyPress(QEvent::KeyPress, key模拟键盘发送事件,会导致主程序卡死
  • 512-Spring AI Alibaba 字段分类分级 Graph 示例
  • 网站开发培训中心wordpress怎么建页面
  • 朝阳做网站哪家公司好推广广告投放
  • 我是程序员吗?
  • 在线excel数据导入导出框架
  • 手撕vector:从零实现一个C++动态数组
  • 2025年--Lc228-523. 连续的子数组和(带测试用例)-Java版
  • 统计学---2.描述性统计-参数估计
  • 辽宁城乡和住房建设部网站怎么做个网站
  • 太平洋建设集团网站网站登录失败怎么回事